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③ SAGE 

绿皮书的传奇 



1976 年，当政府管理与政治学教授 Eric Uslaner 向 SAGE 出版社的创始人 
Sara 建议出版关于重要定量研究方法的简明小册子时，没有人预见到这套书会 
取得巨大成功。 

那年夏天，"社会科学定量研究方法"丛书诞生。统一的、朴素的绿色封面， 
上面仅仅印着书名、作者名及本书所属的系列名。 Iverson 和 Northporth 的《变 
量分析》 （ Analysis of Variance )、 Nagel 的《运筹学》 （ Operations Research ) 
以及 Henkel 的《显著性检验》（ Tests of Significance ) 是最早出版的几本，每 
本售价 2.95 英镑，被形容为"像烤饼一样好卖”。 

SAGE 选择了 20 种顶尖的定量研究工具，然后去寻找合适的作者，邀请 
他们围绕这些工具撰写 92 页的小书。这些薄薄的绿皮书在课堂上深受欢迎， 
在图书馆成套陈列。 

至今，绿皮书系列中共有 160 种在初版或再版。书的主题反映了量化研究 
方法的 发展： 从基础统计知识、数据类型、测量到计算机的应用以及博弈论。 
这套书非常畅销，其中最畅销的一本，是 1980 年出版的 Michael Lewis-Beck 
的《回归方法的应用》 （ Applied Regression ) Q 




出版说明 


本书由五种讨论社会科学研究中的数理基础知识的小册子组成，分别是 
《社会统计的数学基础》、《微分方 程:一 种建模方法》、《基于布尔代数的比较法 
导论》、《模糊集合理论在社会科学中的应用》以及《评估不平等》。任何用定量 
方法对社会科学中的某些问题进行研究的人都需要对数理知识和方法有一定 
的了解。本书首先介绍了定量方法中常用的数理知识，然后具体介绍了如何以 
微分方程来构建模型、比较法科学中的某些问题进集合理论在社会科学中的应 
用，最后针对社会科学中的中研究的人都需要对问题，介绍了对不平等的各种 
测量方法。 

《社会统计的数学基础》为那些希望进行统计学和统计学中的基础知识，比 
如矩阵、线性代数、积分、处理模糊性的适当方法(〈微分方 程:一 种建模方法》着 
重介绍微分方程，提出改变以变量为取向的思维定势，强调对过程的理解。《基 
于布尔代数的比较法导论》对比较法进行了深入论述并提供了技术指导，如布 
尔代数、“小样本”方法、“模糊集合”方法等。《模糊集合理论在社会科学中的应 
用》提供了一种处理模糊性的适当方法，为那些希望进行统计推论的研究者提 
供指引。《评估不平等》提供了不平等测量的原理和标准，并将其与分位数回归 
方法相联系，探讨对整体分布进行比较的方法。 
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往事如烟，光阴如梭。转眼间，出国已然十年有余。1996年赴美留学，最初 
选择的主攻方向是比较历史社会学，研究的兴趣是中国的制度变迁问题。以我 
以前在国内所受的学术训练，基本是看不上定量研究的。一方面，我们倾向于 
研究大问题，不喜欢纠缠于细枝末节。国内一位老师的话给我的印象很深，大 
致 是说: 如果你看到一堵墙就要倒了，还用得着纠缠于那堵墙的倾斜角度究竟 
是几度吗？所以，很多研究都是大而化之，只要说得通即可。另一方面，国内 
(十年前)的统计教学，总的来说与社会研究中的实际问题是相脱节的。结果 
是，很多原先对定量研究感兴趣的学生在学完统计之后，依旧无从下手，逐渐失 
去了对定量研究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量研究方面有着系统 
的博士训练课程。不论研究兴趣是定量还是定性的，所有的研究生第一年的头 
两个学期必须修两门中级统计课，最后一个学期的系列课程则是简单介绍线性 
回归以外的其他统计方法，是选修课。希望进一步学习定量研究方法的可以在 
第二年修读另外一个三学期的系列课程，其中头两门课叫“调查数据分析”，第 
三门叫“研究设计”。除此以外，还有如“定类数据分析”、“人口学方法与技术”、 
“事件史分析”、“多层线性模型”等专门课程供学生选修。该学校的统计系、心 
理系、教育系、经济系也有一批蜚声国际的学者，提供不同的、更加专业化的课 
程供学生选修。2001年完成博士学业之后，我又受安德鲁 • 梅隆基金会资助， 
在世界定量社会科学研究的重镇密歇根大学从事两年的博士后研究，其间旁听 
谢宇教授为博士生讲授的统计课程，并参与该校社会研究院 (Institute for Social 
Research ) 定量社会研究方法项目的一些讨论会，受益良多。 
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社会科学中的数理基 SC 及应用 


2003年，我赴港工作，在香港科技大学社会科学部，教授研究生的两门核心 
定量方法课程。香港科技大学社会科学部自创建以来，非常重视社会科学研究 
方法论的训练。我开设的第一门课“社会科学里的统计学 ” (Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门课“社会科学中的定 
量分析”为博士生的必修课(事实上，大部分硕士生在修完第-门课后都会继续 
选修第二门课）。我在讲授这两门课的时候，根据社会科学研究生的数理基础 
比较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的例子，结合语言和 
图形，帮助学生理解统计的基本概念和模型。课程的重点放在如何应用定量分 
析模型研究社会实际问题上，即社会研究者主要为定量统计方法的“消费者”而 
非“生产者”。作为“消费者”，学完这些课程后，我们一方面能够读懂、欣赏和评 
价别人在同行评议的刊物上发表的定量研究的 文章; 另一方面，也能在自己的 
研究中运用这些成熟的方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有少量重复，但各有侧 
重。“社会科学里的统计学 ” (Statistics for Social Science ) 从介绍最基本的社会 
研究方法论和统计学原理开始，到多元线性回归模型结束，内容涵盖了描述 
性统计的基本方法、统计推论的原理、假设检验、列联表分析、方差和协方差 
分析、简单线性回归模型、多元线性回归模型，以及线性回归模型的假设和模 
型诊断。“社会科学中的定量分析”则介绍在经典线性回归模型的假设不成 
立的情况下的一些模型和方法，将重点放在因变量为定类数据的分析模型 
上，包括两分类的 logistic 回归模型、多分类 logistic 回归模型、定序 logistic 回 
归模型、条件 logistic 回归模型、多维列联表的对数线性和对数乘积模型、有关 
删节数据的模型、纵贯数据的分析模型，包括追踪研究和事件史的分析方法。 
这些模型在社会科学研究中有着更加广泛的应用。 

修读过这些课程的香港科技大学的研究生 ，一 直鼓励和支持我将两门课的 
讲稿结集出版，并帮助我将原来的英文课程讲稿译成了中文。但是，由于种种 
原因，这两本书拖了四年多还没有完成。世界著名的出版社 SAGE 的“定量社 
会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中山大学马骏教授向格 
致出版社何元龙社长推荐了这套书，当格致出版社向我提出从这套丛书中精选 
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一批翻译，以獪中文读者时，我非常支持这个想法，因为这从某种程度上弥补了 
我的教科书未能岀版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种语言的精准把握能 
力，还要有对实质内容有较深的理解能力，而这套丛书涵盖的又恰恰是社会科 
学中技术性非常强的内容，只有语言能力是远远不能胜任的。在短短的一年时 
间里，我们组织了来自中国内地及港台地区的二十几位研究生参与了这项工 
程，他们目前大部分是香港科技大学的硕士和博士研究生，受过严格的社会科 
学统计方法的训练，也有来自美国等地对定量研究感兴趣的博士研究生。他 
们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智明、叶华、张卓妮、 
郑冰岛，硕士研究生贺光烨、李兰、林毓玲、肖东亮、辛济云、於嘉、余珊珊，应 
用社会经济研究中心研究员李 俊秀； 香港大学教育学院博士研究生洪 岩璧； 
北京大学社会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系讲师巫 
锡炜； 中国台湾“中央”研究院社会学所助理研究员林 宗弘； 南京师范大学心 
理学系副教授 陈陈; 美国北卡罗来纳大学教堂山分校社会学系博士候选人姜 
念涛; 美国加州大学洛杉矶分校社会学系博士研究生 宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单的介绍。尽管每本 
书因本身内容和译者的行文风格有所差异，校对也未免挂一漏万，术语的标 
准译法方面还有很大的改进空间，但所有的参与者都做了最大的努力，在繁 
忙的学习和研究之余，在不到一年的时间内，完成了三十五本书、超过百万字 
的翻译任务。李骏、叶华、张卓妮、贺光烨、宋曦、於嘉、郑冰岛和林宗弘除了 
承担自己的翻译任务之外，还在初稿校对方面付出了大量的劳动。香港科技 
大学霍英东南沙研究院的工作人员曾东林，协助我通读了全稿，在此我也致 
以诚挚的谢意。有些作者，如香港科技大学黄善国教授、美国约翰 • 霍普金 
斯大学郝令昕教授，也参与了审校工作。 

由于所选每本书都有一篇序言，对相关方法的背景和应用作了很好的介 
绍，我们均予以保留，内容在此不再赘述。为了方便起见，我们将内容相似的书 
目集册出版，每册三至五本不等，共八册，它们分 别是: 《线性回归分析基础》、 
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社会科学中的数理碁础及应用 


《高级回归分析》、《广义线性模型》、《列表数据分析》、《纵贯数据分析》、《因果关 
系模型》、《社会科学中的数理基础及应用》和《数据分析方法五种》。所冠书名 
未必能精准涵盖其中的内容，读者可自行参阅每本书的序言或目录。 

我们希望本丛书的岀版，能为推动国内社会科学定量研究的扎实学风作出 
一点贡献。 


吴晓刚 

于香港九龙清水湾 
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序 


曾经有一位社会学的博士研究生跟我说，他要去统计学系上一门基础课程，我 问他: 
“为什么？”他回答 ：“每 次在我想更深入地学习高级定量方法时，总感觉有一堵无形的 
墙。”统计学系开的课程相对于社会科学系来说，其数学基础更强，因此相对于社会学系 
的学生，统计学系的学生就更容易翻越这堵墙。然而，近期的许多话题，诸如稳健回归、 
潜在增长曲线模型等，均需要用到较多更深层次的数学知识,从而使许多读者望而生畏。 

《社会统计的数学基础》就是为这些想进一步学习定量方法却时常感到被那堵无形 
的墙所阻碍的学者而编写的。这本小册子涵盖了许多数学和统计学中容易被人忽视却 
又至关重要的话题(如矩阵、线性代数、积分、概率理论及统计分布），这些话题经常在统 
计书籍和论文中出现，许多读者或许以前还接触过,但是对于大多数从事社会科学研究 
的读者而言，可能还比较陌生。 

当得知福克斯的这个项目时，我异常兴奋并积极鼓励他完成这本书。事实上，许多 
评论家包括作者本人都感叹，如果类似这样的书可以早出版几年，比如，在他们学习统计 
的时候，或者在他们为定量方法课程准备授课讲义的时候,那该有多好。 

对于这本书，评论家一致认为 ：“它 会是协助研究生及社会统计工作者进行研究的得 
力助手，也会成为大受欢迎的书籍。同时，这本书更将是对定量方法研究的一个重要 
补充。” 


廖福挺 （Tim Futing Liao) 



第 1 章 I 矩阵、线性代数和几何向量 


矩阵为大多数统计提供了一种自然 诠释; 线性代数是有关线性统计模型的 
代数 计算; 几何向量是一种非常强大的概念性工具，它在理解线性代数和标识 
线性模型等方面很有用。本章的目的是介绍有关矩阵、线性代数和几何向量的 
基本概念。这些相关话题在社会统计中应用广泛，且其编排形式相对于严格的 
数学表述来讲是非正式的。一方面，许多计算结果没有提供详尽的根据，而另 
一方面，这些根据均是提纲挈领的。对更深人的线性代数感兴趣的读者可以参 
看相关主题的教科书，以获得详细的解释(推荐阅读请参见本章末尾）。 


矩阵 


基本定义 


矩阵是一组数字或数字变量的长方形阵列，例如， 

.-2 31 

t — 5 ——6 


X 

(4X3) 


8 


L0 


其更一般地表示为: 


[ 1 . 1 ] 


A 


a 22 


a\ 


[ 1 . 2 ] 
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像这样的 w 行 n 列矩阵可以称为 m 乘 n 阶矩阵，记做 （ mX »)。 为方便起见，我 
有时候在矩阵的下方表示阶，如方程 1. 1和方程 1. 2所表示。矩阵的每一个元 
或者元素可以用它的行列下标表示，如％表示矩阵 A 的第； 行第_/列元素。若 
矩阵为单一(实)数，则被称为“纯量”。有时为了简洁方便，我把矩阵中的典型元 
素放在一个括号里来表示矩阵，如 A % } 等价于方程1.2。 

(/wXn) 

一个只有一列元素的矩阵为列向量，如 


ai 


a-z 


与之类似，一个只有一行元素的矩阵为行向量， 

b r == [6] , bi ,… ， 6„] 

为了便于区分，我在行向量的元素间加上了逗号。 

矩阵 A 的转置表示为 A '， 它是将 A 的第 z 行转变为 A / 的第 z 列所构成，所 
以（用方程 1. 1和方程 1.2) 有： 


乂 = 

(3X4) 


M = 


-1 

4 

7 0 一 

-2 

-5 

8 0 

- 3 

-6 

9 10 - 


^21 

… Cl m i 

«12 

^22 

… Clm2 


a in … a„ 


请注意， （ A ')' = A 。 通常，我所说的向量是指列向量（如上面的 a ), 除非明确指 
出它是被转置的(如 b ')。 

N 阶矩阵，正如它的名字一样，拥有„行„列。元素〜(例如 ， a „， a22 , …， 
A ,) 组成了方阵 A 的主对角线。对角线上所有元素的和叫做矩阵的“迹”： 
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如， 方阵: 


trace(A ) 三 ^ a n 


B 

(3X3) 


31 


7 3 —‘ 


其对角线元素为一5、2和一4,因此迹为乏>« =—5 + 2 —4=— 7。 

/-I 

如果 A = A'， 则称该方阵是对称的，即对于所有的/和 j ^ ~。根据定 

义可知，（上面的)方阵 B 是不对称的，而方阵 

--5 1 3_ 

C= 1 2 6 

- 3 6 -4 - 

是对称的。统计应用中的许多矩阵都是对称的，如相关性矩阵、协方差矩阵、平 
方和矩阵或者交叉乘积矩阵。 

上三角矩阵是指主对角线下方的元素都为 0 的 矩阵： 


U\\ W 12 … u hl 


0 u 2 2 ••• U 2n 

V = 


0 0 


下三角矩阵指主对角线上方的元素都为 0 的 矩阵: 


'l u 0 … 0 
h\ In … 0 



(riXn) 






对角矩阵是指除主对角线外，其他元素都为0的 矩阵: 
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~d\ 0 … 0 

0 d 2 … 0 

D = 

<«x») : : : 

_0 0 ••• d n 

为简单起见，我将对角矩阵 D 表示为 D = diagWi ， 义，…，义）。纯量矩阵是所 
有元素都相等的对角矩阵 ： S = diagGi ，5 2 ，…，&)。一种重要的纯量矩阵是单 
位矩阵，它的主对角线上的元素全是1: 

_1 0 … 0 

0 1 … 0 

I = 

<« Xn ) : : : 

-0 0 …1 

我一般将 I 写成1»。 

(nXn) 

另外两种重要的纯量矩阵是零矩阵(所以元素都为 0) 和向量 1( 所有元素都 
为1)。我用1„表示《元向量，如1 4 = [1，1，1，1]'。尽管单位矩阵、零矩阵和 
向量1都属于矩阵，但是为方便起见，我们通常指定它们为奇异矩阵，如单位矩 
阵就是一个奇异矩阵。 

分块矩阵是指将一个矩阵的元素分归于若干子矩阵，如 



同样, a 12 、 a 21 、 a 22 具有类似的定义。当没有歧义时，我会将子矩阵间的线省 
略。如果一个矩阵仅被垂直分割，我会用逗号来区分子矩阵，例如， 
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C = Ci , C 2 

(mXw +/») L (mXn) (mXp) — 


简单矩阵运算法则 

如果两个矩阵具有相同的阶且它们相应的元素都相等，那么，我们说这两 
个矩阵相等。 

当且仅当两个矩阵同阶时，它们才可以相加，通过将两个矩阵中的对应元素 
相加，即可得到矩阵的和。因此，当 A 和 B 均为 （ mXn ) 阶时，那么 ，C = A +_ B ， 
其阶仍为 （w X «) ，且 C ,; = % 。同样，如果 D = A — B , 那么， D 的阶也为 
(m X w ) ，且4 = % — by 。 如果要求矩阵 A 的负矩阵 E ， 即 E =— A ， 它的阶同 
A 相等，则〜=一 a , ;。例 如： 


1 2 3 ' 

A 

' 4 5 6 


和 


-—5 1 2 — 

B = 

⑽ )_ 3 0 — 4 _ 


我们 得到: 





■— 

4 

3 

5 " 


C = 

A + B 

= 






(2X3〉 




7 

5 

2_ 





"6 


1 

1" 


D = 

= A-B = 






(2X3) 



_1 


5 

10_ 




5 


_ 

1 

-21 

E = 

—B = 







(2X3) 


L -3 


0 

4」 


由于这些计算均是针对元素的运算，所以矩阵相加、相减及求其负矩阵的 
依据都与纯量运算法则相同。特 别是： 


A + B = B + A (矩阵相加的交换律) 
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A+CB + C ) = (A + B)+C (矩阵相加的结合律) 
A-B = A +(- B ) =—( B - A ) 

A-A = 0 
A -0 = A 


— ( 一 A ) = A 
(A + B )’ = A ’ + B ’ 

一个 （m X 72) 阶的矩阵 A 与一个纯量 (: 的乘积为 B = fA ， 其中，岣=。 
续前例，我们 得到： 


—15 

F = 3 XB = 

(2X3) Q 


3 6' 

0 - 12 _ 


纯量与矩阵的乘积遵循如下 法则： 

cA = Ac (交换律） 

Mb + c ) = Ab + Ac (纯量分配律) 
c ( A + B )= cA + cB (矩阵分配律) 

0 A = 0 
1 A = A 


( — 1) A = 一 A 


其中，6、 C 、 0、1和一 1都是纯量， A 、 B 和 0 为同阶矩阵。 

两个 n 元向量的内积(或者点乘)为一个纯量，它是通过相加相对应向量元 
的乘积得来的。 


a 7 • b = ^ a t b , 

i=l 

例如， 


[2， 0, 


1， 


3]. 


一 一 r 

6 

= 2( — 1 )+0(6 )+1(0)+3(9)= 25 

0 


L 9」 


当矩阵 A 的列数与矩阵 B 的行数相等时，我们说矩阵 A 和矩阵 B 是乘法相适 
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的。因此，当 A 为 （m X 72) 阶， B 为 （nX P ) 阶时，矩阵 A 和 B 乘法相适(如下例)。 




1 

-1 

0 

o - 

_1 

2 

3 | 


0 

1 

0 

_4 

5 

6 1 






(2X3) 


-0 

0 

1 - 


(3X3) 


但是以下矩阵却不乘法相适: 


-1 

0 

0 - 


"1 

2 

3 一 

0 

1 

0 , 


_4 

5 

6 — 

-0 

0 

1 一 



(2X3) 



(3X3) 


让 C = AB 作为矩阵 A 、 矩阵 B 的乘 积； 让 a 代表 A 第 f 行， b , 代表 B 第 j 
列，那么，我们知道， C 就是一个 (m X p ) 的矩阵，且 q = a ! • b ; = 也。 

k=\ 

请看下面几个 例子： 


l _> 



1 0 O ' 

1 2 3 



0 10 




/ 

l _4 5 6 」 


_ 

0 0 1 」 


(2X3) (3X3) 


1 ( 1 )+ 2 ( 0 )+ 3 ( 0 ) ， 1 ( 0 )+ 2(1 )+ 3 ( 0 ) ， 1 ( 0 )+ 2 ( 0 )+ 3 ( 1 ) 
4(1 )+ 5 ( 0 )+ 6 ( 0 ) ， 4 ( 0 )+ 5(1 )+ 6 ( 0 ) ， 4 ( 0 )+ 5 ( 0 )+ 6 ( 1 ) 

(2X3) 

"1 2 3 " 

_4 5 6 _ 


[成，卢1， A ， 

(1X4〉 


A] 


[ 尽 ) P\X\ +/^X 2 +/?3 工 3] 



~1 2 " 

0 3 " 


"4 

5 " 

_3 4 _ 

_2 1 _ 

= 

_8 

13 _ 


[ 1 . 3 ] 
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_ 0 

3 _ 

'1 2 " 


"9 12 " 

_2 

1 _ 

_3 1 


_5 8 一 


-丄 

f2 01 T 


~2 0 " 


2 " 


"1 0 ~ 

0 3 . 


0 -1 


0 1 _ 


[1.4] 


4 0 - 


'2 0 _ 


"1 0 ~ 



0 3 _ 


0 1 _ 


在第一个例子中，箭头表示左边矩阵里的元素如何与右边矩阵里的元素相乘。 
矩阵乘法遵循结合律， A ( BC ) = ( AB ) C , 其分配律同加法 相似： 

(A + B ) C = AC+BC 


A(B + C )= AB + AC 

但是它又不是广义上的可 交换： 如果 A 为 （ wX «) 阶， B 为阶，乘积 AB 
如之前所定义是可结合的，但是 BA 要乘法相适必须满足 m 。即便满足了 

这个条件， AB 和 BA 的阶也可能不同。而且即使 A 和 B 同阶且都为（2 X 2)， 
即乘积 AB 和 BA 的阶也相同，但是所得矩阵仍然不同，这点可参见方程 1. 3。 
除非 A 与 B 如方程 1.4 所示， AB = BA , 我们可以说, A 与 B 的乘积满足交换 
律，否则轻易下结论说 AB = BA 是错误的。然而，纯量可以在矩阵乘积中随意 
摆放而不影响计算 结果 ： fAB = AcB = ABr 。 

单位矩阵和零矩阵在矩阵的乘法中扮演着非常重要的角色，因为它与含有 
数字0和1的纯量运算相似。 

A I „ = I m A = A 

(rnX.n) (.mX.fi) 

A 0 = 0 

(mXn)(nXp) (mXfi) 

0 A = 0 

(qXm) (mXn) (gXn) 

矩阵乘积还有一个性质在纯量运算中没有，即 （ AB / = B ' A '， 两矩阵之积的转 
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置是它们顺序相反的转置之积。这可推 广为： 

( AB -.. F )’ = F ’ … B ’ A ’ 

一个矩阵的平方是它和它本身的乘积，即 A 2 = AA , A 3 = AAA = AA 2 = 
A 2 A ， 以此类推。如果 B 2 = A , 那么我们就可以说 B 是 A 的平方根，或者我们可 
以将 B 写成 A 1/2 。 与纯量计算不同，一个矩阵的平方根不是唯一的，当然，纯量 
的平方根也不是唯一的，但区别仅在于符号。如果 A 2 = A , 那么，我们称 A 为 
“等幂元”。在纯量运算中，依照惯例， A ° ^=1( 其中， I 与 A 同阶）。矩阵 A 的逆 
矩阵记为 A — ，其矩阵元素并不等于 { 1/% } 。 

为了便于讲解矩阵的加法、减法及乘法，我们常常把分块矩阵的子矩阵看 
做矩阵里的元素，只要这些元素分割恰当。例如， 


并且， 


那么， 


同样，如果 
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那么， 


AB 


AiiBu + A12B21 

A11B12 + A12B22 

A21B11 + A22B21 

A21B12 + A22 B22 


根据矩阵的定义，我们可以把纯量方程组用矩阵方程来表示。考虑下面含 
有两个未知变量(^，^)的线性方 程组： 


2 xi + 5 x 2 = 4 
Xi + 3 x 2 = 5 

这些方程之所以为线性，是因为其相加之和为常数(如第一个方程的右边），而 
且方程左边均是常数和一次变量的乘积(如第一个方程左边的第一项2^ ) 。 

2 ^i +5 x 2 = 4和 +3 a = 5这两个方程分别代表一个二维坐标空间。我 
们可以把以上方程组用矩阵方程来表示， 得到： 


"2 5" 

~ X \~ 


"4" 

1 3_ 

一工 2 一 


_5_ 


A x = b 

(2X2) (2X1) (2X1) 


其中， 


'2 5" 

A = 


1_工2」 


b = 



有关线性方程组的组成和解法会在后文中给予详解。 


逆矩阵 


在纯量计算中，除法是解简单方程的重要工具，例如， 
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6 x = 12 



或者， 

士 X 6 x = 士 X 12 
6 6 

x = 2 


其中， i = 6_1 ， 即纯量6的倒数。 

D 

在矩阵计算中，没有直接的除法，但是大多数方形矩阵都有逆矩阵。一个 
方形矩阵的逆矩阵 [1] 是一个同阶的方形矩阵，记做 A- 1 。 它有如下 性质: 
AA-' =A A = L 如果方形矩阵可逆，则称其为“非奇异矩阵”(当数学家第一次 
遇到非零且不可逆的矩阵时，他们发现这种矩阵存在的数量显著，因此称这种 
性质为“奇异性”)。如果一个矩阵存在逆矩阵，那么它就具有唯一性。对于一个 
方形矩阵 A，AB = I，那么必然有 BA = I，因此 B = A- 1 。请看一个非奇异 矩阵： 


它的逆矩 阵为: 


我们可以 证明: 


「2 



-51 


"2 5 " 

一 3 - 5 " 


■1 0 ' 

1 3 _ 

-1 2 _ 


0 1 _ 


" 3 - 5 " 

"2 5 " 


"1 0 " 

-1 2 _ 

_1 3 _ 


_0 1 _ 


在纯量代数中，只有 0 没有倒数。我们接下来举一个关于非零奇异矩阵的 


列子，假设 B 为矩阵 A 的逆矩阵， 
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A = 



O' 

0 


但是， 


AB = 


'1 0 " 


bu 1 


_bu 

b\2 

_0 0 _ 

t>i\ 

办 22 _ 


_0 

0 _ 


尹1 2 


这与假设相悖，因此，我们说 A 没有逆矩阵。 

寻找非奇异方形矩阵的逆矩阵有很多方法，在这里，我来简单介绍一种方 
法——高斯消去法。尽管在计算机执行时许多方法都可以提供精确的结果，但 
是消去法使用起来较简单，且在应用范围上也超出了矩阵求逆(这一点我们在 
后面的内容中会有所提及）。现在我们以如下矩阵 为例： 


-2 —2 0 - 

1-11 [ 1 . 5 ] 

4 4 — 4 - 


首先把该矩阵与单位矩阵合并，即构造一个分块或者增广 矩阵: 


'2 -2 

0 

1 

0 

0 " 

1 -1 

1 

0 

1 

0 

_ 4 4 

— 4 

0 

0 

1 _ 


然后，我们试图通过以下操作把原来的矩阵变为单位 矩阵: 


£ f : 用一个非零纯量与矩阵的任意一行相乘。 

£：„:把矩阵中某一行的倍数加到另一行上。 

Em :交换两行。 

E ,、 £«和£：,„被称为“初等行操作”。 

从第一行开始，我们对每一行轮流进行初等行操作，同时保证对角线上的 
元素不能为0,如果遇到对角线元素为0的情况，我们可以把对应的那一行移到 
下一行，然后用行元素除以这一行的对角线元素（该元素也称为“主元”）。最 
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后，用这一行的倍数加上另外的行，以消除其他行对角线元素以外的非零元素。 
具体过程如下 所示： 

1. 增广矩阵第一行除以2， 


1 —1 

0 

1 

~2 

0 

0 

1 -1 

1 

0 

1 

0 

4 4 

-4 1 

0 

0 

L 


2. 第二行减去第一行， 


1 

-1 

0 

1 

J 

0 

0 

1 

—1 

1 

1 

~2 

1 

0 

_4 

4 

-4 

0 

0 

L 


3. 用第三行减去4再乘以第一行， 


1 

-1 

0 

1 

"2 

0 

0 

0 

0 

1 

1 

— T 

1 

0 

-0 

8 

-4 

-2 

0 

1 一 


4. 由于第二行对角线元素为0,所以将第二行、第三行交换， 


1 

-1 

0 

1 

~2 

0 

0 

0 

8 

-4 

-2 

0 

1 

0 

0 

1 

1 

~2 

1 

0 


5. 第二行除以8, 


1 


0 


0 


0 


0 


1 - 



0 


0 


1 


0 
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6. 第一行加第二行， 



7. 因为第一行主元已经为1，所以用第三行乘以+再加第一行， 



8. 第三行 乘以+ 再加第二行， 



当原先的矩阵变为单位矩阵时，增广矩阵的最后3列即包含原先矩阵之逆 
阵，我们可以通过以下步骤来证明： 



解释消去法可行性的方法很简单 :每个 初等行操作都可以用一个矩阵乘法 
来表示。因此，当我们要交换第二行和第三行时，我们只需在原矩阵的左边乘 
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以以下 矩阵： 

-10 0 - 
E /// =001 
j0 1 0- 

步骤中包含一系列 P 个对增广矩阵 [ A ，1„]的初等行操作，我们可以 

(nXn) 

写成： 

E p … EaEillA ， I „]= [1„， B ] 

用 E , 来表示第 i 个操作。定义 E s E p … EA ，即 EA = 1„ (暗示了 E = A - 1 ) , 
EI „ = B 。 因此 ， B = E = A 4 。 如果 A 为奇异矩阵，那么，它就无法通过初等行操 
作变换为单位矩阵 I 。在该过程中，非零主元不存在。 

矩阵逆阵遵循以下法则： 

r 1 = I 

( A -1 ) -1 = A 

( a ')- 1 = ( a - 1 )， 

CAB ) -1 = B ' A 1 
( cA ) 一 1 = c _1 A _1 

其中， A 和 B 为 Tz 阶非奇异矩阵， c 为非零纯量。如果 D = diagWi ，必， d „), 
且所有4 ^ 0,那么 D 是一个非奇异矩阵， D - 1 = diag(~^Y 士，…，吾)。最 
后 ，一 个非奇异对称矩阵的逆矩阵也是对称的。 

行列式 

对应于每个方形矩阵 A , 都有一个称为“矩阵行列式”的数，这个数记做 
det A 。 [ 2 ]对于一个 （2 X 2) 的矩阵，其行列式可表示为 det A — <211(222 —^12^21 o 
对于一个 （3 X 3) 的矩阵，其行列式可表 示为： 


det A = ^11^22^33 _ 1^23^32 ^12<^23 <^31 一 <^12 <221^33 H ~ ^13 ^21 ^32 一 < 2l3 < 222 ^ 3l 

尽管对于〃阶方形矩阵的行列式有一个广义的定义，但是我觉得，用以下性质 
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(或定理)来描述行列式更 简单: 


D 1: 如果用纯量常数乘以矩阵 A 的某一行，那么矩阵的新行列式则为 
原来行列式与该常数的乘积。 

D 2: 如果把矩阵 A 某一行的若干倍加到另一行，行列式值不变。 

D 3: 交换矩阵 A 的任意两行会改变行列式的符号。 

D 4： det 1=1 

定理 Dl 、 D 2 和 D 3 指出了 3种初等行操作对行列式的影响。由于上述高斯消 
去法可将一个方形矩阵转变为单位矩阵，因此，这些性质加上定理 D 4, 已经可以 
充分确定行列式的值。行列式可以简单地通过主元乘积得到，在消去过程中， 
如果使用了一次偶数行交换，则要在乘积前面加负号。如方程 1. 5,其行列式等 
于 一 （2)(8)(1) =-16, 因为在第四步有一个行交换(第二行和第三行），通过步 
骤1、步骤5及步骤7,我们知道矩阵主元分别为2、8和1。如果矩阵为奇异矩 
阵，那么则有一个或者一个以上的主元为0,因此行列式为0。相反，对于一个非 
奇异矩阵，其主元不可能为0。 

行列式有时会在统计应用中直接出现，例如，出现在多元正态分布的公 
式中。 

克罗内克积 

假设 A 是一个 mXn 阶矩阵， B 为一个 pX 9 阶矩阵。那么 A 和 B 的克罗内 
克积记做 A ® B ， 定 义为： 


A ® B = 

(mpXnq) 


r a„B 

<2l2B 

… a ln B 

^21 B 

0.21 B 

… a 2n B 

_a^iB 


… 


由于克罗内克积可以表示分块矩阵，因此在统计中非常有用。例如， 
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克罗内克积的许多性质与普通矩阵相似，尤其是， 


A ( X ) (B + C ) = A ® B + A ( X)C 
(B + C )® A = B®A + C®A 


( A ® B )® D = A ® ( B ( X ) D ) 
c ( Ag ) B ) = UA ) A ( g ) ( cB ) 


其中， B 和 C 为同阶矩阵，6为纯量。如同矩阵乘法，克罗内克积不具交换性，从 
广义上说， A 。 另夕卜，对于矩阵 A 、 B 、 C 和 D ， 

(mXn) CpXg) (nXr) (.qX s) 


(A ® B )( C ® D ) = AC ( X)BD 


如果 A B 为非奇异矩阵，那么， 

(riXn)(mXm) 

( A ^ B )— 1 = A - 1 ( g ) B - 1 

因为， 


( A ® B ) ( A — 1 ( X ) B -') = ( AA — 1 ) ® (BB 1 ) = I , ® I „, = I —) 
最后，对于任意矩阵 A 和 B ， 

( A ® B / = A r ® B 7 

对于分别具有 m 和 n 阶的方形矩阵 A 和 B ， 


traceCA ( X ) B ) = trace ( A ) X trace ( B ) 
det ( A ( X ) B ) = (det A) m ( detB )" 
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基础几何向量 

在代数中，向量为只含有一列（或者一行）的矩阵。其几何解释为 ：向量 
x =[ x ,, x 2 , 〜]，表示《维笛卡尔坐标空间中的零点到（由向量元决定 
的)终点的有向线段。有关二维或三维空间的向量例子，请参见图 1. U 



工 1 



注: 每个向量都是一个以0为起点的有向线段，其终点由向量元决定。 

图1.丨几何向最举例： （ a ) 二维 平面； （ b ) 三维空间 


有关向量基本算术的几何说明非常简单，已 
知长度和方向，我们就可以确定一个向量，不论其 
起点是不是在坐标零点。两个向量 x 2 相加， 
只要使其中一个向量 X ,平移到其终点与另一个向 
量* 2 的起点重合，此时所得的以 Xl 的起点为起 
点、以 X 2 的终点为终点的向量即为由加法所得的 
向量，同时，该平移向量的长度与方向（与所有坐 
标轴所成的角度）保持不变。图 1. 2在二维坐标 
系里描述了向量加法的操作。它等同于以 Xl 、 x 2 
为邻边作平行四边形，以坐标0点为起点的对角 
线即向量\、 X 2 的和。 



注: 把其中一个向量平移到其终 
点与另一个向量的起点相重 
合构成一个平行四边形，以 
坐标0点为起点的对角线即 
为两向量的和。 

图 1.2 两个向置相加 
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Xi—x z 



在图 1.3 中，向量 Xl _ X 2 的差表示为以 X 2 的终点为起 
点、 V 的终点为终点的向量，那么，如果是求向量 x 2 — Xl 的 
差，则该向量的方向 为从〜 到 x 2 。 

向量 x 的长度用 1| x || 来表示，等于它坐标平方和的算 
数平 方根： 

II X II = J 拿 / 


图 I . 3 向量 Xl — Xz 该方程在二维平面中遵循勾股定理，如图 1.4( a ) 所示。该结 

与向量 x 2 — X , 

果还可以延伸至三维空间坐标中，如图 1.4( b ) 所示。向量 
Xi 和向量 x 2 的距离为两个向量终点的距离，表示为 II X, — x 2 II = II X 2 — 
X, II (如图 1. 3)。 




注:其中， （ a ) 与 ( b ) 分别为向量长度在二维和三维空间的表示。 

图 1.4 向量长度是其坐标平方和的平方根(表示为 || x || 


纯量 a 和向量 X 的乘积向量 M 长度为 | a | X || X || ,证明过程 如下: 


ax || = W ( or ,) 2 


= a 1 


UIX || x || 
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如果纯量 a 为正，那么向量 ax 与向量 x 同向； 如果 a 为负，那么向量 ax 与向量 x 
共线但是方向相反。向量一 X 可以看做纯量（一 1) 和向量 x 的乘积，因此，向量 
— x 的长度与 x 相同，只是方向相反。这些结果我们都可以在图 1.5 中看到。 



注 :其中 ，向量 ax 与向量 x 共线。如果 a >0, 那么向量 ax 与向量 x 同向； 如果 a <0, 那么向量 ax 与 
向量 x 反向。 

图 1. 5向置 ax 在二维坐标平面内的表示 


向量空间与子空间 

n 维向量空间是所有向量 x = (^ i ， a ，…， x „)' 的无限组合，且其坐标 X ; 
可以是任意实数，因此我们可知，一维向量空间即一条直线，二维向量空间为一 
个平面等等。 

«维向量空间的子空间是由空间中含有々个向量彳^，&，•••， X *}的向量 
空间子集 y 生成的，该生成集合 y 的线性组合形 式为： 

y = a,Xi +a 2 x 2 H - ha k Xi 

向量集 { Xl ，&，•••， xj 分布于整个子空间，我们知道，其实每个 Xl ， x 2 ，…， & 
都是一个由 W 个坐标向量组成的向量，也就是， { x , ， x 2 ，…，& } 是》 个向量的 
集合，而不是一个包含々个坐标向量的向量。 

如果该向量集合 Ui ， x 2 ，…，& } 中的任何一个向量都无法表示为其他任 
意向量的线性组合，那么，我们说该向量是几何上线性独立的。 

Xj = <2iXi H - \-aj-x\j-x +ajXj H - [1. 6] 
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其中 ，一 些常数 〜 可为0。同样，我们可以说，如果不存在不全为0的常数& ， 
b 2 ，…， b k 使得 

b x \i +6 2 x 2 H - l -^ x ^ = 0 [1. 7] 

(nxn 

那么，该向量集合线性独立。方程 1. 6和方程 1. 7则被称为“线性相关”或者“共 
线性方程”。当向量集合符合这两个方程时，则我们称该集合为“线性相关集 
合”。注意，由于 0 = 0 x ， 因此零向量与任何向量都存在线性相关的关系。 

子空间的维度是由最大的线性独立子集内的向量个数决定的。因此，由向 
量集合 < Xl ， &，•••，义}生成的子空间维度不会超过々和 n 。 这些在向量空间 
中的关系可在图 1. 6的三维坐标系中体现出来。图 1. 6( a ) 表示由一个非零向 
量 x 生成的一维子空间(直 线）； 图 1.6( b ) 表示由经&、 x 2 两个共线向量组成的 


y=a,X,+a 2 X 2 

子空间 




y — a \ *1+^2 兀 2 +^3X3 
子空间 




注 ： U ) 由一个非零向量生成的一维子空间（一条直 线）； （ b ) 由两个共线向量生成的一维子 空间； （ C ) 由 
两个线性独立的向量生成的二维子空间(一个平 面）； （ d ) 由3条线性相关但是两两之间线性独立 
的向量生成的二维子空间。其中， （ c ) 和 ( d ) 中生成的平面可以无限延伸，将平面画在 Xl 和* 2 之间 
是表达的需要。 


图 1.6 三维空间的向置集生成的子空间 
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一维子 空间； 图 1.6( c ) 表示由两个线性独立的向量 Xl 、 x 2 组成的二维子空间 
(平 面）； 最后，图 1.6( d ) 表示由 3 个线性相关的向量 X ] 、 x 2 、 x 3 生成的二维子空 
间。在最后一个例子中，任意一个向量都会落在由其他两个向量组成的平 
面中。 

一 个线性独立的向量集 { x ! ， Xz ，…， } , 如图 1. 6( a ) 中的 { x } 和图 1. 6( c ) 
中的 < Xl ， x 2 } ，均可以看做向量集所扩张出的子空间的基。空间内的每个向量 
都能以唯一的方式表达成这些基向量的线性 组合： 

y = c , x , + c z x 2 H - \- Ck\k 

常数 C ! ，(: 2 ,…， c * 被称为 “ y 的坐标值”。因为0 = 0\+(^ 2 +〜+0\ (; ，所以零 
向量可以存在于任何子空间。 

一个二维子空间的向量坐标可以根据向量加法中的平行四边形法则找出 
(如图 1. 7)。我们还可以通过线性联立方程组得到具体坐标值，其中， Cl ， 
Cl , …， c k 为未知量。 

丄 = ClX ,+C 2 X 2 + ... + ⑽ 


C\ 


= [xi , X 2 ,… ， X 走 ] 


Cz 


Lq 」 


=X c 

(riXk)(kX}) 



图 1.7 通过向量加法的平行四边形法则得到的以 < Xl , X2 > 为基的向量： y 的坐标 
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当向量集 < X ,， x 2 ，…， J 4} 中的向量是线性独立的时候，矩阵 X 为列满秩矩阵, 
此时，方程组有唯一解。有关轶的概念和系统线性联立方程组的解法，我们会 
在之后介绍。 

正交与正交投影 

我们知道，两个向量的内积等于它们对应坐标的乘积 之和： 

n 

x • y = 

« = 1 

如果两个向量 X 、 y 正交(垂直），那么它们的内积为0。有关正交的基本几何向 
量可参见图1.8。尽管向量 x 和 y 均存在于一个《维空间中（因此有些我们可 
能无法直接观测到），但按照惯例，我一般将其画在一个二维平面坐标里。[ 3 ]如 
图 1. 8( a ) 所示，当向量 x 和 y 正交时，顶点分別为 ( 0 , X ， x + y ) 和 ( 0 , x , x — y ) 的 
两个直角三角形是全等的。因此， l|x + y || = || x — y || 。由于向量的长度为该 
向量与其本身的内积的平方根，于是我们有： 

(x + y ) • (x + y ) = (x — y ) • (x — y ) 

x»x + 2 x«y + y«y = x*x — 2 x-y + y»y 
4 x • y = 0 
x • y = 0 

相反，当 x 和 y 不正交时，那么 ||x + y || # || x —y || ，贝 Ijx . y 尹0。 



-y x-y -y x-y 

( a ) ( b ) 

注 ：（ a ) 当向量 x ， y 正交时，它们的内积 x . y 等于 0; ( b ) 当两向量不正交，那么它们的内积不等于0。 


图 1.8 正交的基本几何向置 
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向量 y 在向量 x 上的正交投影可看做向量 x 与一个纯量的乘积，那么， 
(y — SO 与 x 正交。正交投影的几何表示请见图1.9。通过平行四边形法则（见 
图1.10)，$的终点是向量 X 方向上与向量 y 的终点距离最近的点。为了找到 
正确的纯量6,我 们有： 

x • ( y — y ) = x • (y — bx ) = 0 
因此 ， x • y — bx • x = 0, 那么 ， b = (\ • y)/(x • x ) 0 



bx (其终点为与向置 y 的终点距离最近的点 } 


当正交的定义可以延伸到矩阵中时，则 有: 若矩阵 X 的列向量两两正交，即 
当 X ' X ' 为对角矩阵时矩阵 X 为正交矩阵。所以，如果矩阵 X 为正交矩 

(.nXk) 

阵，其符合 X " x ' = 1。 

向量 y 在 X 上的正交投影可以通过余弦值算出两个向量之间的夹角。由于 
余弦函数在 ™ = 0上中心对称，因此在任意方向上测量夹角都可以。这里，我简 
单地把所有夹角都视为正值。有关余弦及其他三角函数的讨论请见后文。我 
将夹角类型大概分为 两种： 两向量之间的夹角在0°和90° 之间； 两向量夹角在 
90°和180°之间。 ra 对于第一种 类型： 


cos 






_ X » y || X II 
_ l | x|| 2X || y || 


II x dii 


对于第二种 类型: 




cos w 
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对于以上两种情况，向量 y 在 x 上的正交投影的6的符号反映了 cos w 的符号。 



(a) (b) 

注 ： （ a)(T<Tt><90 。；（ b) 90。<功< 180。。 

图 1.11 向量 x 与 y 的夹角 

在一个由向量集合 U , ， X 2 ， …， X * } 扩张出来的子空间中，向量 y 的正交 
投影可表示为向量 X ,0 = 1，2,…，幻的线性组合。因此， （ y _$) 与该向量集 
里的所有向量\都正交。 

y = 6,X! + b z \ z H - \~ b k Xi 

如果 A = 2,该正交投影的几何表述可参见图 1. 12。在由该向量集扩张出来的 
子空间里，向量？的终点为在向量 x 方向上与向量7的终点距离最近的点。 

y-y 


图 1.12 向置 y 在由 向屋 x ,、 X2 扩张出来的子空间（平面）上的正交投彩？ 

我们用一个向量 b 包含所有常数6,，同时把所有向量 X ,放入一个 （n X « 
矩阵 X= [ x ,, X 2 ，…， xj 中，因此,我们有 y =Xb 0 根据正交投影定义, 得到： 

x ； * <y — y > = x ； • (y —xb) = o (>=i, •••, k ) [l. 8] 
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同理， X'(y — Xb) =0, X y = X Xb D 只要 X 、 为非奇异矩阵，我们就可以找到符 
合该方程的唯一的 b 。 对于基向量，只要 { Xl ， x 2 , …， x *} 线性独立，则 X ' X 为 
非奇异矩阵， b 有唯一解，否则， b 的解不唯一。 

有关正交投影在最小二乘线性回归中的应用非常直接。假设图 1. 9和图 
1. 11中的向量 x 是一个简单回归里的自变量，向量 y 为因变量，对于 x 和 y 我们 
都用(每个变量与其均值的)偏差来表示，则有 x = { X ,- X }, y =彳1一尹}。 
那么，$ =6 x 即 Y 对 X 进行最小二乘线性回归后，通过 Y 值拟合得到的平均偏 
差 向量; 6为斜率， y — $为最小二乘残差向量。根据平行四边形法则，我们发 
现， Y 的总平方和可以分解为回归平方和和残差平方和，即 

II y II 2 = II y ll 2 + lly-y II 2 

或者叫做回归的“方差分析”。那么， X 和 y 之间的相关系数 r 就是它们平均偏 
差向量夹角的余弦值。 

同样，在一个多元回归中，我们假设 y 为因变量的平均偏差向量， Xl 和^为 
两个自变量的平均偏差向量，那么，7对\和^的最小二乘线性回归则如图 
1.12 所示。其中 A 和6 2 为两个自变量的偏回归系数。由原点、 y 及》组成的 
直角三角形给出了多元回归中的方差分析。 y 与$之间夹角的余弦值则为回归 
得出的尺，即观测的 Y 与回归拟合出的 Y 的相关性大小。 


矩阵的秩及线性联立方程组的解法 


矩阵的秩 

(mXn ) 矩阵 A 的行空间是 n 维向量空间的子空间，该子空间是由矩阵 A 
的 m 行向量生成的。矩阵 A 的秩即其行空间维数，换句话说，矩阵 A 的秩是最 
大线性独立行数值。它遵循 rank ( A ) ^ min ( m ， ？ 1 )。 

例如，矩阵的行空间 
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A = 


— 1 

_0 


0 
0一 


包含的所有向量为: 


X' = all, 0, 0] + fe[0, 1, 0] 

= [ a , 6, 0] 

该子空间维数为2,因此 rank ( A )=2 0 

如果一个矩阵为行简化阶梯形矩阵 RREF ， 那么，它必须符合以下 标准： 

R 1: 如果矩阵中包含零行，零行必须排在非零行后面。 

R 2: 从左到右，每个非零行的首非零元都为1。 

R 3: 若第行的首非零元位置在 A 列，那么，第 77 Z + 1 行的首非零元位 
置则在々+ 1列。 

R 4: 首非零元所在列的其他元均为0。 


方程 1.9 形象地列出了行简化阶梯形矩阵，其中，星号表示所在元素的任 


意值： 
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0 

* 



0 • 

• 0 

0 

0 

… 0 

1 

* • 

• * 

0 

* 

.... 


0 • 

• 0 

0 

0 

… 0 

0 

0 • 

• 0 

1 

* 

… * 

[1 

0 • 

• 0 

0 

0 

… 0 

0 

0 • 

• 0 

0 

0 

… 0 

新 

_0 • 

• 0 

0 

0 

… 0 

0 

0 • 

• 0 

0 

0 

… 0_ 



行简化阶梯形矩阵 RREF 的秩和矩阵中的非零行数目相等,首非零元所在 
列的其他元均为0的性质，保证了任意非零行不可能成为其他非零行的线性 
组合。 
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通过一系列初等行操作，我们可以把一个矩阵变为 RREF 。 例如， 

"-2 0 -1 2 ~ 

4 0 10 

- 6 0 12 - 

1. 第一行除以一2， 

厂 1 1 

1 0 i - 1 

4 0 1 0 

_6 0 1 2 _ 

2. 第二行减去4再乘以第一行， 

厂 11 

10 y -1 

0 0-1 4 

_6 0 1 2 _ 

3. 第三行减去6再乘以第一行， 

10 y -1 

0 0-1 4 

-0 0 —2 8 _ 

4. 第二行乘以_1， 

' 0 | -r 

0 0 1 —4 

.0 0 —2 8 _ 

5. 第一行减去 j 再乘以第二行， 
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-10 0 1- 

0 0 1 —4 

-0 0 —2 8 - 

6. 第三行加上2再乘以第二行， 

-loo r 

0 0 1—4 

-0 0 0 0 - 

由于矩阵 A 中有一个零行，且零行可以写成其他行的线性组合，所以矩阵 
A 的秩等于其行数减1，其值等于矩阵 A 的行简化阶梯形矩阵 （ RREF ) — A « 
的秩。因此，我们可知，初等行操作不会改变一个矩阵的秩。 

一个非奇异方形矩阵的 RREF 是一个单位矩阵，因此，非奇异方形矩阵的 
秩等于其阶数。相反，一个奇异矩阵的值比其阶数小。 

之前我们定义矩阵 A 的秩为其行空间的维度。其实，矩阵 A 的秩与其列空 
间的维数也相等，换句话说，矩阵 A 的秩等于矩阵 A 中线性独立的列数。 

线性联立方程组 


含有〃 个未知数的 m 个线性方程组用矩阵形式可表 达为： 

A x = b [1. 10] 

(»iXn)(nXl) (mXl) 

其中，矩阵 A 是由未知数的系数组成的，向量 b 是由方程等号右边的常数项组 
成的， x 为未知数向量。假设方程的数目和未知数的数目相等，即 W = »，或者 
矩阵 A 为非奇异矩阵，那么，方程 1. 10 有唯一解，即 x = A - 1 b 。 

同理，如果 A 为奇异矩阵，那么 A 就可以通过一系列初等行操作被转化为 
RREF ： 

A r = E P … E 2 EtA = EA 

通过对方程左边和右边同时应用行操作，则 得到： 


EAx = Eb 

ArX = bj ； [1. 11] 
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其中， b K = Eb 。因此方程 1. 10和方程 1. 11是等价的。 

以 r 表示矩阵 A 的秩。 r〈n (考虑如果矩阵 A 为奇异矩阵）， A K 包含 r 个 
非零行和 „_ r 个零行。如果矩阵人^的任意零行在向量 b R 中的对应元不为0, 
那么，该方程组是不一致的，我们称这样的方程组为“超定方程组”，因为该方程 
组中存在自相矛盾的方程。 


0 :ci + 0 jr 2 + …+ 0 x n = b ^ 0 

如果矩阵人《的任意零行在向量 b K 中的对应元为0,则该方程组是一致的，但此 
时该方程组却有无穷多个解，其中 n — r 个未知数可以取任意值，这 《 — r 个未知 
数又决定了其他 r 个未知数也会有无穷多个解。我们称这样的方程组为“欠定 
方程组”。假设方程的数目小于未知数的数目，即 m <«，那么， r 必然小于《，该 
方程组既可能是超定方程组(如果矩阵 A r 的零行所对应的向量 b K 的元非零）， 
也可能是欠定方程组(如果方程组是一致的）。我们可以考虑以下由4个未知数 
和3个方程组成的方 程组： 


0 - 12-1 


4 0 
6 0 


x 2 

工 3 
L 工 4_ 


L 5 J 


将等号右边的常数矩阵加人该矩阵后 得到: 



将左边系数矩阵变为行简化矩阵的步 骤为: 


1. 第一行除以一2, 
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2. 第二行减去 4 X 第一行，第三行减去 6 X 第一行， 


1 

0 

1 

"2 

-1 

1 一 
2 

0 

0 

-1 

4 

4 

_0 

0 

—2 

8 

8 - 


3. 第二行乘以一1， 


1 

0 

1 

~2 

-1 

1 _ 

2 

0 

0 

1 

—4 

-4 

_0 

0 

-2 

8 

8 _ 


4. 第一行减去+ X 第二行,第三行加上2 X 第二行， 


1/0 0 1 

0 0 \/ -4 

_0 0 0 0 

写成方程组形式，我们 得到： 

: Tl +工 4 =音 

xz — 4 x 4 — — 4 

0工1 + 0工2 + 0工3 + 0工4 = 0 

第三个方程没有提供任何有用的信息，但是它说明了“原方程组是一致的”。前 
两个方程暗示了未知数^和 x 4 可以取任意值(我们用4和 X 4 # 表示），那么 A 
和 * r 3 可表示为： 


4 (首非零元用箭头标出) 
0 _ 


工1 



Xz =—4 + 4r: 
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因此任意向量 



为原方程组的解。 

现在，我们考虑另一个方 程组: 



将向量 b 合并到系数矩阵 A 中进行初等行操作后，我们得到的行简化矩 阵为: 


1 

0 

0 

1 

r 

~2 

0 

0 

1 

—4 

-2 

0 

0 

0 

0 

2_ 


最后一个方程 (bn + Ox 2 + 0: c 3 + Ch ： 4 = 2是自相矛盾的，因此原方程组无解。 

假设方程组中方程的数目大于未知数的数目，即 m > r ， 如果矩阵 A 为列满 
秩矩阵 ( r =«), 那么矩阵 A K 包含 n 阶单位矩阵和 m — 「个零行。若方程组是 
一致的，那么该方程组有唯一解，否则，该方程组为超定方程组。当时，方 
程组既可能为超定方程组，也可能为欠定方程组。 

我们可以在一个二元方程组[ 6 ]里证明以上 论述： 


duX\ -\-a12X2 = bi 

^21-^1 H - ^22*^2 = 62 

^31^1 +a 3 2^2 = 
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每个方程都可以在一个二维平面坐标系里表示，其中，坐标轴由两个未知 
数构成(如图 1. 13)。如果3条直线相交于一点，如图 1.13( a )， 那么方程组有唯 
一解——两个未知数 (< 、 x 纟）同时满足3个方程。如果3条直线没有相交于 
一点，如图 1. 13( b ) 和图 1. 13( c )， 那么两个未知数无法同时满足3个方程，因此 
该方程组为超定方程组。最后，如果3条直线重合，如图 1. 13( d )， 无论未知数 
取什么值，都可以满足3个方程，此时，方程组被称为“欠定方程组”。 


工 2 




^2 X 2 , 




注 ：（ a ) 唯 一解； （ b ) 和 ( c ) 超定方程组； （ d ) 欠定方程组 (3 条直线重合）。 

图 I . 13含有两个未知数的3个线性方程 


如果等号右边的向量 b 在线性联立方程组里为零向量时，方程组被称为“齐 
次方程 组”： 

A x =0 [1. 12] 

(mXn)(nXl) 

那么，无效解 x = 0 总是符合齐次方程组，因此，方程组不可能不一致。通过上 
文的介绍，我们知道，非无效解只有当 r a nk ( A ) <«时，即方程组为欠定方程组 
时才存在。 

表 1. 1总结了有关线性联立方程不同情况下的解。 [7] 
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线性联立方程在统计上被广泛运用，例如我们熟悉的最小二乘回归分析。 


表 1.1 含有 n 个未知数和 m 个线性联立方程的解 


方程个数 

m <Cn 

m = 71 

m ^> r , 

1 

系数矩阵 
的秩 

r < w 

r 〈 n r = n 

r 〈 n 

r = n 

一般方程系统 

一致 

不一致 

欠定 

超定 

欠定 唯一解 

超定 

欠定 

超定 

唯一解 

超定 

齐次方程系统 

一致 

非无效解 

非无效解 无效解 

非无效解 

无效解 


广义逆矩阵 

我们了解到只有方形非奇异矩阵才有逆阵。那么，对于所有矩阵，包括奇 
异矩阵及长方形矩阵，它们拥有的是广义逆矩阵，广义逆矩阵在统计学中，比 
如，在介绍线性统计模型时非常有用 

imXn ) 阶矩阵 A 的广义逆矩阵为 （rj X w ) 矩阵，其满足 方程： 

AA — A = A 

请注意， A " 是一个广义逆矩阵，而不是矩阵 A 的广义逆矩阵。除非 A 是方形非 
奇异矩阵(在这种情况下 ， A = A " 1 ), 否则广义逆矩阵就不是唯一的。 

许多方法可以帮助我们找到矩阵的广义逆矩阵，例如，高斯消去法。我们 
先通过初等行操作把矩阵 A 变为 RREF ： 

EAsEfEjEjAsA/e [1. 13] 

其中 ， E = E P … E 2 E l 是一个 （w X m ) 的非奇异矩阵。再通过第二类、第三类初 
等列操作(转置是不必要的，因为 A k 中所有的首非零元已经为1)，我们进一步 
将简化为标准 形式： 

■ I r 0 - 

A r = A r E * = A r E ； E； … EJ = [1. 14] 

- 0 0 

— rXr) Cm — rXn — r)— 
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其中， E » 是一个 （《X«) 的非奇异矩阵，左上角单位矩阵的阶数 r* 

是矩阵 A 的秩，其他所有零矩阵可有可无。因为，如果 A 是一个《阶非奇异矩 
阵，则 r = n， 那么在这里，我们就不需要零矩阵。 

将方程 1. 13和方程 1. 14合并, 得到： 

Ac = EAE* [1. 15] 


那么， A 的广义逆矩阵为 


A = E* AcE 


现在我们考虑 矩阵: 


_—2 0 - 12 - 
A = 4 0 10 

- 6 0 1 2 - 

在上文中，我们将该矩阵变为行简化矩阵后，得 到： 


-loo r 

A；? = 0 0 1 —4 

-0 0 0 0 - 

通过交换第二列、第三列，把第四列元素归零，将矩阵化为标准形式后 得到: 



0 0 
1 0 
0 0 


0 - 

0 

0 - 


将所有的初等行列操作写成矩阵，我们 得到: 


E = 


-2 
-一 1 



一 1 0 


-2 


1」 
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10 0 
0 0 1 

0 1 0 

-0 0 0 


-r 

o 


通过以上矩阵， 


A - = E * A’ C E 


-1 

0 

0 

-1- 


"1 

0 

0- 

- 

0 

0 

1 

0 


0 

1 

0 


0 

1 

0 

4 


0 

0 

0 


■0 

0 

0 

1 - 


-0 

0 

0- 

- 


1 0 
-1 0 
-2 1 


2 2 u 

= 0 0 0 

-2 —10 
0 0 0 _ 

我们得到的 A - 为矩阵 A 的广义逆矩阵。 

我们考虑一个含有 n 个未知数和 m 个线行联立方程的方程组， 

A x = b 

(mXn) (nXl) (mXl) 

假设该方程组是一致的且为欠定方程组，那么， 

x * = A - b [1. 16] 

该方程组有无数解。如果方程组有唯一解，那么，我们可以通过方程 1. 16算岀。 
最后，如果该方程组是超定的，那么，方程 1. 16无法满足原方程组，即方程组无解。 
因此，我们可以知道，如果方程组是一致的，那么， AA - b = b , 否则 ， AA _ b 尹 b 。 


特征值与特征向量 


如果 A 为《阶方阵，那么齐次线性方程组 
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( A-AIJx = 0 [1. 17] 

只有在纯量 A 为某几个特定数值时，它有非无效解。通过上面的内容，我们知 
道，当矩阵 ( A - AU 为奇异矩阵时，方程组存在无效解，即当满足下列条 件时： 


det(A — AI „) = 0 


[1. 18] 


方程 1. 18称为矩阵 A 的“特征方程”， A 为矩阵 A 的特征值、特征根或者潜伏根。 
在某一特征值 Ai 下满足方程 1.17 的向量 Xl 称为在特征值 ； U 下，矩阵 A 的“特 
征向量”。 

为简单起见，我用一个 （2 X 2) 矩阵的例子来详细解释。对于此例，特征方 
程可 写为： 


det 


an —A 
_ a 2 \ 


a i 2 

= 0 

<222 一 A _ 


(an —— A ) ( a 2 2 — A ) ~ ai 2 a 2 \ =0 


A 2 —— （an +<222 )A+flu a22 —— ^ 12^21 = 0 

利用一元二次方程的相关公式来计算其两个平方根，则有 : 

CL \\ +^22 4 - V (^11 +^22 ) 2 4 ( ana 2 2 ~ d \ 2 CL 2 \ ) 

[1. 19] 

CLn ~\~0-22 — V (ail +<222 ) 2 — ^(cinO.22 —^ 12^21 ) 




如果根号以下部分非负，那么该平方根必为实数。注意，有可能 存在; u + A 2 = 
ail + a 2 2 (A 的特征值之和等于 A 的迹）和 A1A2 = a u a 2 2 — ai 2 a 2 i (特征值的积等 
于矩阵 A 的行列式的值)的情况。而且，如果 A 为奇异矩阵，则 A 2 为0。 

当矩阵 A 为对称矩阵(在特征值和特征向量的统计应用中很常见）时，有 
a\z = a . 2 \ 9 方程 1. 19变为： 


Ai = +a 2 2 + V (an a 2 2 ) 2 + ] 

又 2 = ~2 [ a n + a 22 — V (an — “22 ) 2 十 4 aj 2 ] 


[ 1 . 20 ] 
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由于方程 1. 20根号以下的部分不可能为负，因此，该 （2 X 2) 对称矩阵的特征值 
必为实数。 

例如，我们有如下 矩阵： 

' 1 0. 5" 

0. 5 1 _ 

那么，可以 得到： 

Ai = y[i + 1+^(1- D 2 +40. 5 2 ] = 1.5 



1 + 1 


7(1 — 1) 2 +40. 5 2 


= 0. 5 


要找到特征值为 L = 1. 5时的特征向量，我们需要解齐次方程组， 


"1-1. 5 0.5 

~ OCu ~\ 


"o" 

0.5 1-1. 5_ 

一工 21 一 


_0_ 


一 0. 5 

0. 5 ' 

Xu 


"0" 

_ 0. 5 

_ 0. 5_ 

-工 21_ 


_0_ 


得到： 

~OCu 

Xi = 

- 工21_ 



在这里，任意向量都包含两个相同元。同样，对于 A 2 = 0.5,我们要解特征方 
程组： 


1 _ 0. 5 

0.5 

~OCu 


"0" 

_ 0.5 

1-0. 5_ 

-工 71- 


_0_ 


得到: 


0. 5 

0. 5" 

工 12, 


"0" 

0. 5 

0. 5_ 

-工 22」 


_0_ 


—尤22 
-工 2*2 - 
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在这里，任意向量都包含两个互为相反数的元。所得特征值下的特征向量可以 
扩展出一个一维子空间 ：当指 定了特征向量中的一个元时，另一个元也随之可 
得。我们会进一步发现，所求的两个特征向量^、 X 2 是互相正交的 ，即： 

Xl * x 2 =— X2iX22 + X 2 * X 2 * 2 = 0 

许多有关 (2 X 2) 矩阵的特征值和特征向量的性质可以推广到 ( nXn ) 矩阵 
中,尤其是以下几种情况:⑴一个 UXn ) 矩阵的特征方程 det ( A — AI „) = 0是 
A 的《阶多项式，因此，它的《个特征值不一定完全不同[ 12 ] ; (2) 矩阵 A 的所有 
特征值之和等于 A 的迹; （3) 矩阵 A 的所有特征值之积等于 A 的行 列式； （4) 矩 
阵 A 的非零特征值个数等于 A 的秩; （5) 奇异矩阵至少有一个特征值为0; (6) 实 
对称矩阵的特征值必为 实数; （7) 如果矩阵 A 的所有特征值全都不同(两两均不 
同），那么特征值下的特征向量可扩张出一个一维子空间；如果有々个特征值全 
相同，那么它们产生的（同一个)特征向量可以扩张出一个 A 维子 空间； （8) 不同 
特征值所产生的特征向量是两两正交的。 

假设 A 为一个 ( nXw ) 实对称矩阵，且秩等于 r 。 让 A = diag ( Ai ， A 2 , …， A r ) 
表示 A 的所有非零特征值， x , 表示特征值 A , 下的特征向量，标准化后，我们得到 
II II = 1。用 Xe [ x , ， x 2 ，…， xj 表示所有的特征向量，那么， 

A = AiXiX / i + A2X 2 x , 2 H - hA r x r x ’ r = XAX ' [1. 21] 

方程 1. 21称为矩阵 A 的“谱分解”，它是统计方法中主成分分析和因子分析等 
方法的基础。 

特征值及特征向量可推广为如下方法 :假设 A 为一个 （72 X /0实对称矩阵， 
我们可以将方程 1.17 替换成： 


( A - AB)x = 0 

其中, B 也是一个 (» Xn ) 实对称矩阵，而且是一个正定矩阵。那么，满足该方程 
的 A 称为矩阵 B 下矩阵 A 的“广义特征值”。我们发现，广义特征值其实是矩阵 
A 1 T 1 的一般特征值。广义特征值和特征向量在多元统计分析中非常有用，如多 
元线性模型的假设检验。 
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特征值和特征向量的另一种推广是有关长方形矩阵的特征值及特征向量。 
假设矩阵 A 为 （ mX «) 矩阵，且其秩为 r 。 那么， A 可分解为： 


A = 




[ 1 . 22 ] 


其中， （1) 矩阵 B 和矩阵 C 为正交矩阵，但不是唯 一的； （2) A 2 是一个对角矩 
阵，它包含矩阵 A ' A 和 AA ' (它们包含的特征值相同）的所有非零特征值; （3) 不 
是有所有零矩阵都会用到（当然，如果 r=m = n , 那么方程 1. 22可以简化为方 
程 1.21 的谱分解）。 

方程 1. 22称做矩阵 A 的“奇异值分解”，矩阵 A 的对角元为矩阵 A 的奇异 
值(因此是矩阵 A ' A 和 AA ' 特征值的平方根）。奇异值分解非常有用，比如在提 
高最小二乘计算的效率和精度上。 


二次型及正定矩阵 

表达式： 

x ’ A x [1.23] 

(lX«)(nXn)(nXl) 

称为 “ x 的二次型”。在本节里，矩阵 A 从始至终表示一个实对称矩阵。如果方 
程 1. 23对于所有的 x 都为非负，那么，我们说矩阵 A 为正定矩阵。一个正定矩 
阵的所有特征值均为正（因此，正定矩阵是非奇异矩阵），一个半正定矩阵的所 
有特征值均为正或者为0。 

请看以下 方程： 


C = B ' A B 

(mXm) (niXn) (riXn) (riXm) 

其中， A 为正定矩阵， B 为列满秩矩阵 ， 我会证明，矩阵 C 同样是正定矩 
阵。注意，首先矩阵 C 是对 称的： 

C ' = ( B ’ AB )’ = BAB = BAB = C 
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如果 y 是任意 On XI )非零向量，那么 x = By 也为非零向量。因为矩阵 B 的 

CnXl) 

秩为 m ， 我们可以从 B 中选择 m 个线性独立的行组成一个非奇异矩阵 B « 。那 
么， x ； = B * y , 它包括向量 X 中所包含元的子集，且也是非零的，原因在于 y = 
B - x * 关0。因此，/匸 7 = / 8'^7 = /如必然为正，所以矩阵(：为正定矩阵。 
通过类似的推理可以发现，如果 rank ( B ) < m , 那么矩阵 C 为半正定矩阵。如 
果 B 为列满秩矩阵，那么矩阵 B ' B = —个正定矩阵（因为矩阵1„明 

(mXn)(nXm) 

显为一个正定矩阵），否则为半正定矩阵。 

正定矩阵和半正定矩阵，如方差一协方差矩阵、相关矩阵平方和和乘积矩 
阵,在统计中都起着至关重要的作用。 


Cholesky 分解 


每个对称正定矩阵 A 都可以被唯一地写为 A = U ' U ， 其中， U 是一个对角 
元素为正的上三角矩阵。 U 称为矩阵 A 的 “Cholesky 因子”，或者可以看成是某 
种矩阵的平方根。 

现在我们来考虑一个 （3 X 3) 矩阵： 


同时用矩阵 U ， 


-1.0 0. 5 0. 3- 
A = 0. 5 1. 0 0. 5 
-0. 3 0. 5 1. 0- 



Mil 

U\z 


u = 

0 

U22 

U 23 


_0 

0 

W33 - 


来表示矩阵 A 的 Cholesky 因子。那么， 


「4 


Wn U\2 


U\\U\z 


u’u = 


M12 Mu 


+ U 22 


Wi 2 W 13 +U22^23 


M13MH tlu U\2 U23 U22 


W 13 U 23 
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-1.0 

0. 5 

0. 3~ 


0. 5 

1.0 

0. 5 

= A 

-0. 3 

0. 5 

1.0- 



进而 得到： 

U n = 1. 0 —► Mu = 1. 0 

U\2U\\ = Mi2 X 1 = 0. 5 —► U\2 = 0. 5 

u l2 + ul 2 = 0. 5 2 + ul 2 = 1 uz 2 = Vl — 0. 5 2 = 0. 86 60 

UuUu = Ml3 X 1 = 0. 3 —► Mi3 = 0. 3 

U13U12 + ^23 U22 = 0. 3 X 0. 5 + w 2 3 X 0 . 8660 = 0. 5 -► 

u 2 3 = (0. 5 — 0. 3 X 0. 5)/0. 8660 = 0. 4041 

U U M 23 + M 33 — 0. 3 2 + 0. 4141 2 + = 1 — 

u 33 = v / F r 0 T 3^ r a 4 l 4 T r = 0. 8641 


因此， 


- 1. 0 0. 5 0. 3 - 

U = 0 0. 8660 0. 4041 

- 0 0 0.8641- 


这个过程可以引申到任意秩的对称正定矩阵上。[ 13 ] 


推荐阅读 


有关矩阵及线性代数的书籍很多，大多数仅仅描述了有关向量空间的基本 
属性，却没有提供详细的图解。 

关于矩阵的书籍，包括希利 （ Healy ，1986) 、格雷比尔 （ Graybill ，1983)、瑟 
尔 ( Searle ，1 982) 以及格林 ( Green ) 和卡罗尔 （Carroll )(1976) 的研究，均主要针 
对统计应用。后几本的几何描述很详细。 

戴维斯 ( Davis , 1973) 的著作对矩阵代数的描述清晰且简单，包括一些向量 
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几何内容，但较为有限，仅局限于二维空间。 

南布狄瑞 ( Namboodiri ，1984) 的著作有关于矩阵代数的解释，结构紧凑，但 
是不包括向量几何。 

有关统计计算的书籍，有肯尼迪 （ Kennedy ) 和金特尔 （ Gentle ) (1980) 及莫 
纳汉 ( Monahan )(2001) 等人的著作，主要描述了矩阵和线性代数在数字计算机 
中的应用。 



第 2 章 I 微积分入门 

... ^ - -mmm 


微积分主要用于处理两种 问题: 寻找曲线的切线斜率(微分)和计算曲线下 
方的面积(积分)。早在17世纪，英国物理学家、数学家艾萨克 • 牛顿爵士 (Sir 
Isaac Newton ) 和德国数学家、哲学家戈特弗里德•威廉•凡 • 莱布尼茨 Gott - 
friend Wilhelm von Leibniz ) 就各自独立地证明了这两种问题的联系，进一步巩 
固并发展了古典时代的数学。因此，牛顿和莱布尼茨是公认的微积分创始 
人。 [14] 到了 19世纪，伟大的法国数学家奥古斯丁 • 路易斯 • 柯西 （Augustin 
Louis Cauchy ) 与其他学者一起，引人了极限的概念，从而为微积分建立了一个 
在逻辑上更为严格的基础。 

在本章中，我们首先简单回顾一些基础数学(如数字、线性/平面方程、多项 
式函数、对数、指数及基本的三角函数），然后，我按如下次序简要地介绍微积 
分: 方程的 极限; 方程的 求导; 利用求导解决最优化 问题; 多变量的偏导、条件最 
优化和矩阵的微 积分; 泰勒展式和渐 近式; 积分学的重要思想。 

虽然我的叙述远不够严格、透彻，但是读者仍可以从中获得许多对微积分 
基本问题的直觉认识。 


回顾 


数宇 

对不同类别数字的定义取决于所要研究的数学问题的深度，对于社会科 
学，如下基本定义已经可以基本满足我们的研究目 的了： 
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第一，自然数包括0及所有正整数。[ 15 ] 

第二，整数包括所有负整数、正整数和0。 

第三，整数和分数统称为有理数，任何一个有理数都可以写成分数和 

m 

爪是整数，且 m 关 0) 的形式。如一■和 

第四，实数包括所有的有理数和无理数，例如，#〜1.41421，数学常数 
〜 3. 14159 Re 〜 2. 71828,这些数都不能写成两个整数的比例。所有实数可 
以投影到一条连续的直线上，从一〜到+°°。 

第五，复数可以用 a + & 表示， 其中， a 和6是实数， f 是虚数， i 三 O 。 在 
直角坐标系中，复数可以想象成复平面上的点一横轴即实轴对应于实数部分 
a ， 纵轴即虚轴对应于虚数部分的系数当6 = 0时，复数即实数。 

线和平面 

直线可以用方程 表示： 


y = a~\~bx 

其中 ， a 和6是常数，且 a 是： y 轴截距 （x = 0时的; y 值），6是斜率 ( x 增加1时 ： y 
的变化)。图 2. 1表示在二维坐标下以 t 和^为轴的直线，对于每一种情况，直 
线都是可以向左右无限延伸的。如果斜率是正的（6>0)，直线从西南往东北延 
伸; 如果斜率是负的 （6 <0),直线从西北往东南 延伸; 如果6 = 0,直线是水平的。 



图 2.1 直线 = a + 的图像 
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同样，我们有线性 方程: 


y = a + b\X\ -\-b2X2 


它代表三维空间的一个以:^、 j : 2 和3；为轴的 
平面，如图 2. 2所示。： c , 、 x 2 和 ： y 轴两两垂直， 
我们可以把 x 2 轴的方向想象成垂直于纸面向 
内，且平面在各个方向无限延伸。据图，截距 a 
表示在 J：! 和: c 2 都为 0 时的： y 值; 61 表巫固定 
了工 2 值后，平面在 xi 方向上的斜率;表示固 
定 xi 值后，平面在 X2 方向上的斜率。 

直线方程还可以表示为其他 形式： 


y = a+b l x l + b 2 x 2 



注:这 里斜率6,、6 2 都是正值。 

图 2. 2平面方程 y = a + fc ,；!：, 


将其转换为截距 式为: 


cx -\~ dy = e 


同样，方程 

可以表示平面 


多项式 



C\Xi + c 2 x 2 ~\~dy = e 




多项式具有以下 形式： 

y = a 0 +aix + a 2 x 2 H — • -\~apX p 

其中， a 。， a ,, a 2 ,-, a , 是常数，除％外，其他系数可为0。最大的指数为多 
项式的阶。如图 2. 3所示，一阶多项式即一条 直线： 


y = a 0 +aiX 
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二阶多项式是二次 方程： 

y = a 0 -\-aix-\-a 2 x 2 

三阶多项式是三次 方程： 

y = a 0 + a\x a 2 x 2 +a 3 x 3 

—个 P 阶的多项式有一 1 个弯。例如，二阶多项式有一个弯，三阶多项式 
有两个弯，等等。 

(a) y = ao ~\~a\x (b) y=a 0 ~\~a\x-\-azX Z (c) y=Oo ai x+a 2 x 2 +a 3 J 3 



图 2.3 “典型"的一阶(线性）、二阶(二次型）、三阶(三次方）多项式 


指数和对数 

对数 方程： 

log * x = y 

读作“以6为底 x 为真数的对数是 y ’， 其等价于 

x — 

其中，6>0且6关1。 

logio 10 = 1 因为 10 1 = 10 

logic 100 = 2 因为 10 2 = 100 

logi 。 1 = 0 因为 10° = 1 

log 10 0. 1 =— 1 因为 10— 1 = 0. 1 


同样， 
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log 2 2 = 1 

因为 2 

log 2 4 = 2 

因为 2 : 

log 2 1 = 0 

因为 2 1 

log 2 j =—2. 

因为 2 


实际上，不论底为何数，只要真数为1，其对数就为0,因为6° = 1(6^0)。在对数函 
数中，: r 的定义域为 x >0 o 数学中有一些常用的底，如数学常数 e 〜 2. 71828，其 
中，以 e 为底的对数都称为“自然对数”。 [16] 

典型的对数方程不管其底如何，都具有类 
似的形状，如图 2. 4 所示。有时为方便计算，我 
们常常需要将对数函数的底换为另一个常数或 
字符，这时，我们 得到： 

log a X = log,, b X log 6 :c 

该公式为换底公式。例如， 

logio 1000 = 3 = logi 0 2 X log 2 1000 k 0. 301030 X 9. 965784 
对数继承了指数的一些特性，如 = b 气 因此， 
log(xiX 2 ) = logJCi + logx 2 

同样 ， g = b 1 ' 飞， 因 此有： 

0 2 

log (x^) = ^° gXl ~ 1 0 阶 

b 01 = 0f)\ 那么， 

log(x a ) = a\ogx 

为了简化繁冗的计算，我们曾将乘法转化为加法、除法转化为减法、指数转化为 
乘法。虽然现在已经不需要这么做了，但对数仍然在数学及统计学中扮演着不 
可或缺的角色。 


>l=log t X 



图 2.4 对数函数= logtJC 


指数方程具有这样的 形式: 






y = a x 

其中， a 是常数。常用的指数有 ：y = exp ( x ) = 
，，如图 2.5 所示。对数函数和指数函数互为 
反函数： log ^ Ca 1 ) = x , a b&J: = x 。 

三角函数 

图 2. 6为一个单位圆-■个圆心在原 

点,半径为1的圆。角 x 在圆内生成了一个直角三角形，同时，该夹角是以水平 
轴为起始轴，按逆时针方向旋转测量得出的。 

角^的余弦即邻边/斜边 （ OA / OB ) ，记 
为 cosi ， 长度等于 OA (因为 OB = 1); 角 
的正弦即对边/斜边 ( AB / OB ) ，记为 sinx ， 长 
度等于义£;角 _ r 的正切即对边/邻边 ( AB / 

0 A ) ，记为 tanx = sinj ：/ cos ; c 。 

如图 2. 7所示，正弦、余弦、正切函数角 
的取值范围为一360°到360°，其中负值表示 
顺时针方向旋转得到的角。当夹角趋近于 ® 2 * 6 



士90°或±270°时，正切函数值相应地趋近于± 00 。此夕卜 ， sinx = cosO — 90)。 
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^0 — 5 x ox 0 +5 1 
■ r 。 的值域 

注: A 上方对应的曲线的缺口表示当 : c = ; c 。 时函数值无法定义。 

图 2. 8 lim/Ul =L: 函数 /U) 的极限 


有时，用弧度来度量角会更加方便， 2 tt 弧度等价于360°角度。如图 2. 6,由 
于单位圆的周长为 2 K ， 因此我们可以用夹角两边所夹的弧长来代表弧度，如角 
x 的弧度为 BC 。 

极限 

微积分常用来处理具有^ = /( x ) 形式的函数，我们所考虑的定义域（自变 
量的取值)和值域(因变量的取值)都是实数。极限用于考虑函数在其自变量 X 
趋近但不等于某个数值时的行为。这是一个很重要的思想，尤其在函数没有对 
自变量: r 的某些数值给出定义或者函数在某些数值下没有意义的情况下。 

极限的 - 5 ”定义 

函数: y = /(. r ) 在 j : = X 。（即一个特定的 J ： 值)处有极限 L 。 对于任意正数 
£，无论它多小，总是存在一个正数 5, 只要满足: T 与 X 。 的距离小于 5, 即只要 X 
位于: C 。 左右两边足够小的23值域中， / U ) 和 L 的距离即小于£。用符号表 
示为： 

I /(x) — L | < e (0 < I x_x 0 1 < (?) 





图 2. 8 形象地描述了这一定义。注意，其中 / Cz 。） 不需要等于 L 。 实际上， 
极限函数当 / Cr ) 在: c = : c 。 不存在的时候最有用。若 L 是 / U ) 在: c = _ r 。 时的 
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极限，意味着当 X 从: To 左右两边趋近 A 时， / U ) 趋近于 L 。 用公式表 示为: 

lim f ( x ) = L 

读作 “/(工) 在工趋近于: C 。 时的极限为 L ”。 

一个例子 :如何 找极限 


让我们来找出函数 W ( x ) = ㈢ * X 。 = 1时的极限。鋪发现， 


/(I) 


1-1 

1 — 1 



- J： _ 1 

是没有意义的(分母为 0)。 尽管如此，只要: T 不等于1，无论 
它多么接近1，我们都可以将等式上下除以 

JO — I ： 

X 2 — 1 _ (JC+1)(*2： — 1) 


图 2. 9 lim 


x 2 -! 

x-1 


2 ( x ^1) 


JL 丄 | JL / VoC X / I -I 

y = -「=- i -=工十 1 

X — 1 X — I 

因为工。+ 1 = 1 + 1 = 2,所以 


lim --= lim(x +1) = 1 + 1 = 2 

.7—1 X _ 丄 T~*l 


图 2. 9展示了这个极限。 


极限运算规则 

假设 / Cr ) 和 g ( x ) 是自变量工的两个函数，且在 x = x 0 时都有 极限: 

lim /(x) = a 
lim g(jo) = b 

那么， / Cr ) 和 gCr ) 的极限的算术运算 如下： 

lim[/(x) + gix) ~] = a + b 
lim[/(x) — g(x)] = a — b 
lim[/(x)g(j：)] = ab 
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lim[/(j ： )/^(x)] = a/b (/； 0 ) 


同样，假设 r 和 ” 是常数，且 lim/(x) 那么， 

lim r — c 
lim[c ， /(*r)] = ca 

j—.r" 

lim([/(x)]") =a" 

因此， 

lim x = x 0 


函数求导 


现在考虑函数 J = /Cr) 在: r 的两个值下的 情况： 

x = x ] 9 y \ = /(jti ) 

Jo = Jo 2 , y 2 ^ f(x 2 ) 

差商是指从点 (A，M) 到点 Cr 2 , M) 时 A 值的变化除以* r 值的变化 ，即： 
yz — y\ = = /(&) 一 /(^i) 

JT2 — X\ Ax Xi — X\ 

其中，△读作 “Delta”， 是“变化”的简写。如图 2. 10所示，差商是连接点 Cn， 
和点(工2, jy2) 的割线。 



图 2. 10差商 Ay /仏 是连接 u ,, h ) 和 U 2 , _ y 2 ) 两点的割线的斜率 
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/(X) 在 x = x, 时的导数是差商^在 A 接近： T, 时的极限(即 Ar - O ) : 

穸= l im /(々 )— /(々 ） = lim ^ L +^> 二 = lim 笋 

dx -r 广 X2 — 00\ Ar-0 /\x At—0 /\T 

如图 2. 11 所示，导数是/(：!：)在工 = a 时的切线。 



注 :随着 a 逐渐趋近于 ： r ,. 割线越来越趋近于切线。 

图2.1〗导数是 / U ,) 的切线斜率 

我们还可以用下面的符号表示 导数： 

穸= f \ x ) 

dx Ax 

表达式 /'(： r ) 强调了导数是 :r 本身的一个函数。对于 &T 和，可以将其想象 
成无限小但是不等于0的数值，在很多情况下的求导可以把它们当做数字来处 
理。求函数导数的过程叫做“微分”。 

导数——差商的极限 


给定函数 : y = / Cx ) = x 2 , 求任意 _ r 的 / '(> r )。 
运用导数是差商的极限的 定义： 


f ' U ) 


/(x + Ax) 


(x+ zVr ) 2 一 x 2 


lim ^+2 -rAr + Az 2 - x 2 = — 2 xAr + Az 2 

Az—0 AX Ar-0 AX 
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= lim(2:c + Ax) = lim + lim Ax 

Ai^-0 Ar-^O 

= 2:r + 0 = 2:r 

由于 Zlr 虽然接近于0,但是永远不等于0,因此除法是合适的。例如，曲线 y = 
fix ) = : r 2 在: r = 3时的切线是 f ' oc 、 = 2 :c = 2 X 3 = 6。 

幂函数的导数 


一般而言 ，： y = /( x ) = ax n 的导 数为: 


例如， y =3: r 6 的导 数是: 


dy 

dx 


= vax^ x 


g =6 X 3,-=18 x = 


负幂函数和分数幂函数的导数是类似的，例如 ， y 


4 x 3 4 ' 


的导 数是: 


g =- 3 X | x+i 


4 x 4 


j = A =: c + 的导 数是： 

4y. = 丄， -i = 1 T -+ = _J_ 

dx~ 2 x - l x - 2^c 


导数的运算规则 

假设一个函数是另外两个函数 的和： 

h ( x ) = /( a :) g ( x ) 

导数的加法规则与极限函数的加法规则一样，为 // U ) (: r )。 例如， 

y = 2 x 2 + 3 :r + 4 

= 4 j : + 3 + 0 = 4 x + 3 
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注意，常数的导数(如上例中常数 4 的导数)为 0, 因为常数可以表 示为： 

3 ； = fix) = A = 4x° 

该结果的几何意义是，一个常数可以用 U ， W 平面的一条水平直线表示，而这条 
直线的斜率为0。 

对于多项式函数，导数的加法规则同样 适用： 

~j^ax n = nax^ 1 
ax 


导数的乘法和除法规则比较复杂。导数的乘法规 则为: 

h{x) — f(x)g(x) 
h f (x) = f(x)g\x) + f\x)g(x) 

导数的除法规 则为： 

h(x) = f(x)/g(x) 

g(jo) /’ （工 ） —g {x)f{x) 


h\x) 




例如 ，: y = (i 2 + l)(2*r 3 — 3x) 的导数为： 


— = (.x 2 + 1)( 6 x 2 — 3) + 2x(2x 3 — 3x) 
dx 


又如 ，: y = 


_ X 

x 2 — 3:c + 5 


的导 数为: 


dy — x 2 — 3x + 5 — {2x — 3)x _ — :c 2 + 5 

dx ( 工 2 — 3x + 5) 2 (x 2 — 3x + 5) 2 

导数的链式规则为，假设 > 是 i 的间接函数， 3^ = /(%)， z = gU): 


那么巧关于: T 的导 数为: 


y = / [畧 (工)]= 
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h ’（ x ) 


= ^y x dz 
dx dz dx 


看上去分子和分母中的导数可以消去。 [17] 

例如，求函数 j = U 2 +3 x +6) 5 中 j 关于: c 的导数$。我们可以展开幂函 

dx 

数(即括号里的表达式乘以它自身5次），但是这样会使运算极其复杂。如果我 
们运用链式法则,会使运算简单得多。首先，引入一个新的变量 z ， 代表括号里 
的表达式： 

z = g ( x ~) = x 2 + 3 x + 6 


那么， 


y = /( z ) = z 5 


然后用 y 对 z ， z 对: c 分别求导数 得到: 




dz 

dx 


= 2 x + 3 


运用链式法则 得到: 


dy = dy x dz 

dx dz dx 


= 5 z 4 (2 x + 3) 


最后，用 x 替代 z ， 得到: 


— = 5( x 2 +3 x + 6) 4 (2 x 十 3) 
dx 

此例是典型的链式法则 运用: 引人一个“人为”的变量来简化表达式的结构。 


指数函数和对数函数的导数 


在应用统计中，我们经常会碰到指数函数和对数函数，因此，知道如何求这 
些函数的导数是很重要的。 

对数函数 log ,( x ) 的导 数是： 
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dlog f (X) 

dx 



其中， log , 是自然对数，即以 e 〜 2. 71828为底的对数。 

事实上，简单的导数形式是自然对数称为“自然”的原因之一。 
指数函数7 = 〆 的导 数为： 


de 1 

dx 




对于任意常数 a 的指数函数 y = 〆 ，其导 数为: 


% = alXo ^ a 


三角函数的导数 


基本三角函数的导数如下,其中， • z ■是以弧度为单 位的: 


dcos x 
dx 


= — sin x 


dsin x 
dx 


=COS X 


<itan x — 1 

dx cos 2 j: 


(x ，即 cosx 古 0) 


二阶或高阶导数 


因为导数是它本身的函数，所以可以被再次求导。函数 y = / Cr ) 的二阶导 
数为： 


/ 〃 (x) 


d 2 y 二 df \ x ) 
dx 2 etc 


同样， 3； = f ( x ) 的三阶导数是二阶导数的 导数： 


f ' JC ) 




df \ x ) 

dx 
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高阶导数以此类推。 

例如，函数 y = /( x ) = 5 x 4 + 3 x 2 + 6的各阶导 数为: 

/’( x ) = 2 Ox 3 + 6 x 
/〃( x ) = 60 x 2 + 6 
f m { x 、= 120 x 
f "\ x ) = 120 
广 '( x ) = 0 


该函数 5 次以上的导数都为0。 

最优化 

无论是在统计学还是其他方面，导数的一个重要用途就是求最大化和最小 
化问题，换句话说，即求函数的最大值和最小值(例如，最大似然法估计、最小二 
乘法估计)。这些问题统一被称为“最优化”。 

如图 2. 12所示，如果函数处于相对(局部)最大值或最小值（即该数值大于 
或者小于周围的数值），或者处于绝对(全局)最大值或最小值(即该值至少跟其 
他数值一样大或者一样小），处于该点的切线是水平的，所以函数在该点的导数 
为0。 



图 2. 12函数的导数为0的点是函数 / U ) 的最大值或最小值 
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图 2.13 导数为0的点是函数 
/ U ) 的拐点 


但是，导数为0的点并不一定是函数的最大 
值或者最小值。如图 2. 13所示，拐点（函数弯曲 
方向发生变化的点）的导数同样为0。导数为0 
的点统称为“驻点”。 

为了区别导数为0的3种情况- 一 最小值、最 
大值、拐点，我们可以借助二阶导数(如图 2. 14)。 

原始函数、一阶导数、二阶导数的关系如图 


2. 15 所示: / Cr ) 的一阶导数在两个最小值和一个(相对)最大值处为0 = 0) ; 



注: 在最小值处，一阶倒数 / U ) 从负值由0变成正值，即一阶导数是递增的，因而二阶导数 fU ) 
是正的。正如•阶导数标示原来函数的变化一样，二阶导数可以标示出一阶导数的变化。在最大值 
处，一阶倒数 / Cr ) 从正值由0变成负值，即一阶导数是递减的，因而二阶导数 /" Cr ) 是负的。在拐点 
处，因而二阶导数 ru )= o 。 

图 2. 14若函数 / U ) 在最低点，随着 jc 变大，其一阶导数 变大; 若函数 / U ) 在最高点， 

随着 A ： 变大，其一阶导数变小 



图 2. 15函数的 一阶导 数和二阶导数 
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二阶导数 cfy / dx 1 在两个最小值处为正值，而在最大值处为负值。 

最优化的例子 

求下面这个函数的极值(最小值或最大 值）： 

/(x) = 2x 3 — 9x 2 + 12x + 6 

该函数如图 2. 16所示(顺便提一下，确定局部驻点和确定它们是最小值还是最 
大值，对于函数作图很有用）。 



函数的一阶导数、二阶导 数为： 

/’Cr) = 6x 2 -18x+12 
f\x) = 12x 2 —18 

令一阶导数等于0,然后求相应的 x 值得： 

6x 2 — 18x +12 = 0 
一 3x 十 2 = 0 
=^(.x — 2 ) ( j : — 1 ) =0 

/'(•r) = 0 的两个根为 x = 1和= 2。 

对于 x = 2， 

/(2) = 2 X 2 3 - 9 X 2 2 + 12 X 2 + 6 = 10 
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/'(2) = 6 X 2 2 —18 X 2 + 12 = 0 V 
/"(2) = 12 X 2 2 — 18 = 6 

因为/"(2)为正值，所以点(2, 10) 代表了一个(相对)最小值。 

对于 ; c = 1， 

/( I ) = 2 X 1 3 -9 X 1 2 +12 X 1 + 6=11 
/’⑴ = 6 X 1 2 -18 X 1 + 12 = 0 V 
/〃⑴=12 XI 2 -18=- 6 

因为/"( I )为负值，所以点(1， 11) 代表了一个(相对)最大值。 

多变量和矩阵的微分学 

多变量的微分学在统计学中有着广泛的应用。多变量的微分学的关键思 
想非常直接，即它是单一自变量微分学的扩展，然而该话题在微积分入门介绍 
中经常被忽略。 

偏导数 

对于一个具有多个自变量的函数:^ = /(力， A ，…，：^八:^对于:^的偏导 
数即假定其他 x 为常数时， /( x ：, x 2 , x „) 的导数。为了将它和常用导数 

dy / dx 相区别，我们常用3替代 d 来表示偏 导数 : dyU 
例如，已知函数 

y = /(j：i ? x 2 ) = x\-\- 3xi x\ +X 2 + 6 
该函数对于 A 和的偏导 数为： 

= 2,xi + 3x2 + 0 + 0 = 2 a + 3xg 
dx \ 

Z ~~ = 0 + 6j ： ix 2 + 3^2 +0 = 6xix 2 + 3^2 

dx 2 
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求对于 A 的偏导数的“技巧”在于把其他 > r 当做常数。所以，当求 J 对于 x , 的 
偏导数时 ， X 〖和: T 〗 等均可被当做常数。 

偏导数 ， j : 2 ， …， X n )/ 3 x \ 给出 了函数 /(xi , JC 2 , — , •^在 JC , 方向 
上的切超平面。 [ 18] 例如，函数 /(X,, x 2 )=x? +x,x 2 +4 +10在: C , =1和： r 2 = 
2时的切面如图 2. 17所示。 



图 2. 17 函数 /( jc , , x 2 ) = Jfj -\- XtX 2 + x \ + 10 在 a :, = 1 和 jc 2 = 2 时的切面 


在局部 / 全局最小值或者最大值中，切面在各个方向上的斜率都为0。因 
此，要求一个多变量函数的最小值或最大值，我们就必须分别对每个变量求偏 
导，使之分别为0,然后解方程组。 

假设我们想寻找*和: r 2 的值，使得函数 /(xi , x 2 ) = x \ + X1X2 + x z 2 + 10 
最小。首先我们分别对 A 和: r 2 求导： 




= 2x\ +x ： 


^=x,+2x 2 

dx 2 


当偏导数等于 0 时，我们可以得到唯一 解 ：: n =0, x 2 = 0。在这个例子中，答案 
相当简单,因为偏导数是 Xl 、 x 2 的线性函数。当函数最小时，其值 y = 0 2 +0 X 
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0 + 0 2 + 10 = 10 o 

如图 2. 17所示，在: d = 1和 x 2 = 2以上的切面斜 率为: 

—= 2(1) +2 = 4 
dx \ 

dy 

—= 1 + 2(2) = 5 
dx 2 


拉格朗曰乘数和受约束的最优化 

拉格朗日乘数使我们能在条件 gOi ， 工2 ，…， 工„) =0下最优化函数 ;y = 
fUi , x 2 , x „)。 这种方法实际上是在偏导数中加人了限制。 

举个简单的 例子: 将函数 ；y = /(^， x 2 ) =4+4最小化是要受条件 a + 
x 2 =1制约的(假如没有该约束条件，显然 A = X2 =0时函数最小)。解决受约 
束的最小化问题的方法 如下： 

第一，将约束条件移项成标准形式茗(工1，工2，…， A ) = 0,得: T ] + X 2 —1 = 0 o 

第二，构造一个具有如下标准形式的新方程 [19] : 

h ( j ：\ , x 2 j •••<, x n ^ X ) = /(工 1 ， x 2 > ••• ， ) — A X g { xi , x 2 9 •••， x „) 
新的自变量 A 读作“拉格朗日乘数”，在这个例子中， 

h(x] , x 2 ， A) = oc\ -\-x\ — A(xi + X 2 — 1) 

第三，寻找最优化函数 / Ka ， x 2 ，…，工 n ， A ) 的 工1 ，工2，…，工 n ， A 值，即让 /i 
( xi , X 2 J •••? A ) 分别对 Xi ， ： C 2 ，…，， A 求偏导，把这个 72 +1 个偏导数都 

设为0,然后解方程组求得: d ， x 2 , — , x n , Ac 在此例中， 

， X 2 ， A ) — o . 

^ 三 2 々 —A 

，： c 2 ， A ) 一 o 、 

- = LiX2 —— A 


dhXxj_j x 2 > A) 
dx 


OCi 


x 2 + 1 
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注意，令 A 偏导为0所得到的等式即约束条件：^+々一1 = 0。因此，所有满 
足偏导为0的解必须首先满足约束条件。所以在本例中，其存在唯 一解： 

x\ = x 2 = 0. 5 (A = 1) 

拉格朗日乘数可以解决多个约束条件的问题，只要我们给每个约束条件引 
入一个拉格朗日乘数即可。 

矩阵的微分 

对于自变量为 xi , x 2 , •••» x n 的函数 ：y = /( xi , x 2 , •••, x „), 我们可以将 
其简化为 : y = /( X )。其中，向量 x = [ jCi ， X 2 ，…， x„y o y 关于 X 的向量偏导 
数(或者梯度)是指^对于每一个列向量元的偏导数。 

_3 y 
dx \ 

3 - y = ^ 

dx 

3 y 

如果 y 是 X 的线性方程， 

y = ^ x = a \ X \ + a 2 x 2 + ••• -\~ a n x n 

(lx ”）(nXl) 

那么， dy/dxi = a i9 3 y/dx = a , 例如， 

y ^ xi + 3 x 2 — 5 x 3 = [ 1 ， 3 ， 一 5 ] 

向量的偏导 数为： 

- r 

3 

dx 



-~ 5 - 



68 


社会科学中的 ft 理基確及应用 


如果^是 x 的二次形式， 则有： 

V = x ' A x 

(lXn)(nX»)(nXl) 

其中，矩阵 A 是一个对称矩阵。把矩阵乘积展开后， 得到： 

y = a \\ x \ + a 2 2x \ + ••• ~\~ a nn x 2 n + 2 a ]2 xix 2 + ••• 

+ 2 a \ n x \ x n H - \-2 a n -\, „ a : n -] x n 

因此， 

= 2( a , i*ri +〜 2 工 2 + •••= 2 a:x 

dXi 

其中， a : 代表 A 的第 ？ 行。把这些偏导数写成向量形式，即 3 y / dx = 2 Ax 。 线性函数 
和二次函数的向量偏导数与单变量函数的纯量偏导数是一 样的： d ( ax )/ dr = a , 
cl ( ax 2 )/cbc = lax 

例如，对于 

2 3 xj 

3 ； = Oi ， x 2 ~\ 

_3 1」 \ X 2_ 

= 2 x \ + 3 j~i X2 + 3 j ：2 X | - x \ 

— 2 x ] + 6 a：i x-i + x \ 


其对 Xi 和 : c 2 的偏导数为： 

# = 4r, +6 x 2 

rlri 

= 6xi + 2 工 2 

cJXz 

那么，向量的偏导 数为： 


_ 

4： Ti + 6j ：2 

— o 

"2 3' 

0C\ 

V\ ~ 

_6xi + 2x 2 _ 

—— L 

_3 1_ 

JC 2 _ 


3 ； = /(X) 的二阶偏导数——海森矩阵的定义 如下: 
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d 1 y 

d \ 0 \ 


' rl 2 y 

3 2 y 

3 2 y 


dx\ dxz 

c)X\ c)x n 

a2 y 

dl y 


dxz ^JO\ 

c)x\ 

0X2 30Cn 

^ 2 y 

3 2 y 

... 3^ 

dx n c)X\ 

djC n djC2 



对于对称矩阵 A ， a 2 ( x ' Ax ) A ；^ x ' = 2 A 。 

为了使多变量函数 /( x ) 最小，我们可以将向量偏导数设为0,即 
3 y / dx = 0 , 然后解相应的关于 x 的方程组，得到解 X 、如果海森矩阵在 x = x 
时是正定的，那么该解代表函数的一个(局部)最 小值; 如果海森矩阵是负定的. 
那么该解代表函数的一个最大值。 [2 Q ] 这与单变量函数的导数相同，即二阶导数 
d 2 y / dx 2 为最小值时是正的，为最大值时是负的。 

如之前的函数， 


y = /(xi , x 2 ) = +xi_r 2 + x; + 10 

在 : n =_ r 2 =0.5 处有一个驻点(即在该点上，其偏导数为 0)， 那么，函数的二阶 
偏导 数为： 

32 y .... 

dx\ dxi 9x2 (^X\ 


32 y = d2 y _ 2 

3x\ 3x\ 

因此，在: r , = x 2 = 0.5 ( 或者其他点)时的海森矩阵 如下: 


r 3 2 y 

3 2 y - 


3x\ 

dx\ dxi 


"2 r 

3 2 y 


= 

_1 2_ 

3x 2 办 1 

c)x\ 
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明显是正定的，我们可以证明在 : n = : c 2 = 0. 5时 ，:V = 10是 /(A ， J： 2 ) 的一个 
最小值。 


泰勒展式 

假如一个函数 /(X) 在 x = x „ 处拥有无限阶导数(尽管大部分可能是 0) ，那 
么该函数可以分解成泰勒 展式： 

fix) = /(X。) + / ) (X- X。) Af 。） (x —Jo) 2 

=E /(n>( , Xo) ( x - xo )" [2. 1] 

^ «! 

其中， / ( n > 表示 /的《 阶导数 J ! 表示 》 的阶乘。 [21] 

只要: T 充分接近 X 。， 同时函数 /( •) 足够大，那么，我们只需要取泰勒展式 
的前几项就可能接近 / Cr )。 例如，函数 /Cr) 在 x 与: r 。 之间是二次型的，那么， 
/(• r ) 就可以近似等于泰勒展式的前三项，因为剩下的导数会很小，可以忽略不 
计。同样，如果函数 /( x ) 在工和^。之间是线性的，那么， /(: c ) 就可以近似为泰 
勒展式的前两项。 

我们可以通过下面的三次函数来了解泰勒展式的 应用： 

fix) = 1+x 2 + 工 3 

那么，我 们有： 

/'(X) = 2x+3x z 
/ 〃 (x) = 2 + 6 jt 
= 6 


/(”) O )=0 („> 3) 
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取: T 。 = 2,求得各阶导数的值分 别为： 

/⑵=1 + (2) 2 + (2) 3 = 13 
/ r (2) = 2(2) +3(2) 2 = 16 
/"(2) = 2 + 6(2) = 14 
广 (2) = 6 

最后，我们利用 x 0 = 2 时的泰勒展式来求 /( ： r) 在 x = A 时 的值： 

/( 4 )=/( 2 ) + ^( 4 - 2 ) + ^( 4 - 2 ) 2 + ^( 4 - 2)3 
1! 2! 3! 

= 13 + 16(2) +^(2 2 ) +-|(2 3 ) 

= 81 

将 I = 4代入原函数直接检 验得： 

/(4) = 1 + 4 2 + 4 3 = 81 

在这个例子中，如果取少于4项的泰勒展式，就会得到一个很差的近似（因为这 
是一个三次函数）。 

泰勒展式和近似可以扩展到多变量函数中，如果函数是纯量函数或者我 
们可以应用一阶近似或二阶近似时，问题就会变得很简单。假设 y = 
/(xi , x z , x „) = /(x) , 同时我们想知道/(、)在 x = Xo 处的近似，那么 /(x) 

的二阶泰勒展式可近 似为： 

/( X )〜 /( Xo ) + [尽 ( Xq)]’ （X — Xo ) + y (x — X 0 ) / H(x 0 )(x — Xo ) 


其中， /( x ) 的梯度 ^( x ) = dy / dx , 海森矩阵 H ( x ) = d 2 y / dx 3 x \ 它们都是在 
X = Xo 的情况下估计的。我们可以发现，这个展式和方程 2. 1 给出的纯量泰勒 
展式非常相似。 
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积分学的基本思想 

面积:定积分 

如图 2. 18,我们首先考虑一下曲线 / U ) 下水平坐标: c 。 和: n 间所包含的面 
积。这个面积可以由以下近似求得:把 A 和: C , 之间的线段分成《等分，每段长 
度为 Ax ， 并分别和曲线 /(: c ) 连接，构造成一系列长方形，如图 2. 19所示。那 
么，各个长方形底边所对应的 x 坐标分 别为： 

Xo » xo + Ax ， x 0 + 2/Vc ， … ， x 0 +nAx 



图 2.18 函数 /(; c ) 在; c „ 和 & 之间的区域 图 2.19 曲线以下区域可看做无数长方形区域之和 

因此，所有长方形面积之 和为： 

7T— 1 

^ /(Xo + zAr) Ax ^ A 

i =0 

且面积近似会 随着〃 值的增大而越来越精确。用极限表示为[ 22 ]: 

n—\ 

A = lim /(xo + zAx) Ax 

该极限可以表示为 A = f / Cr )( ir ， 读作 “/( x ) 在 jc = x d 到 *r = x ! 的定积分”。 
在这里，: C 。、 x , 是积分域是长方形长度 zlr 无限小的量。积分符号 J " 是拉 
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长的 “ S ”， 其所表示的定积分可以理解为连续求和。 

如图 2. 20所示，定积分同时确定了面积的符号，如果^包含一些小于0的 



图 2.20 积分 f / Ujdi 为负（因为其 j 值在上下限 a 和&之间为负> 


不定积分 


假设对于函数 /(X) ， 存在另一个函数 F ( x ) ， 使得: 


即 /&) 是 FU ) 的导数，那么， FU ) 就叫做 “/&) 的反导数”或者“不定积分”。 

一个函数的不定积分不是唯一的，因为假如 FU) 是 /(:r) 的反导数，那么 
G(x) =F(x)+ C 也是(其中， c 是绝对常数而不是: c 的函数)。相反，假如 FCr) 
和 G(x) 均为 /(x) 的反导数，那么则存在常数 c •，使得 G(x) = F(x)+c 0 

例如， /(- r ) = x 3 ,函数+ 10是 /( J ：) 的反导数， — 10和^ ■■ r 4 也是 

其反导数。事实上，任何 F (: r ) = j : r 4 + c 形式的函数都是其反导数。 

对于不定积分，我们可以 写出： 


dF (x) 
etc 


=f(x) 


Fix) = f{x)dx 


积分符号在定积分和不定积分中的应用是一致的，并且都称为“积分”(这将在 
下文叙述）。但是，在不定积分中，积分符号上没有积分域，同时注意，定积分所 
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包含的面积是一个特定的数字，而不定积分是一个函数。 

微积分的基本定理 

牛顿和莱布尼茨指出，曲线的反导数和曲线以下的面积存在一系列的关 
系。我们把他们所发现的这种不定积分和定积分之间的关系称为“微积分基本 
定 理”： 

f(x)dx = ) — F(x 0 ) 

其中， F ( • )是/( •) 的反导数。 

以下是一个关于该定理的不严格证 明：如 
图 2. 21所示，考虑曲线 /( x ) 下一个定点 x 。 和 
一个动点: r 之间的面积 A ( x )。 A ( x ) 表明面积 
是 x 的函数 :面积 随着: c 由左移向右而改变。 
在图 2. 21中 ， x + Ar 表示一个比 x 稍微偏右 
的值， AA 表示 x 和 : r + Ar 之间的面积，这个面 
积可以近似地看做一个长方形的 面积： 

AA % /( x ) Ax 

同时我们可以把该面积表 示为： 

AA = A(x + Ar ) — A ( x ) 

求 A 关于 x 的导数，得 到： 

dA(x) aA /( x)Ar 

- =lim —— = am - = j\x) 

( Ijq Ar-^O 八 7 - 

最后， ACr ) =\fU)dx 是 /( x ) 的一个特别但未知的不定积分， FCr ) 是 / Oc ) 其 

他特定的、人为给定的不定积分。对于一些 c 值 ， A ( x ) = F ( x)+ C (如前所述， 
同一函数的两个不定积分的区别在于常数 c )。 我们知道， A ( x a )=0, 其原因在 
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于， ACr ) 表示曲线在 X 。和： c 之间的面积，而 : r 。 和 x 。 之间的面积为0,所以， 

A(x 0 ) = F(x 0 ) +c = 0 
^>c =一 F(x 0 ) 

因此，对于特定值 x = 

A(xi) = f f(x)dx = F(xi ) — F(x 0 ) 

其中， •) 是 /(•) 的反导数。 

例如，我们想知道面积(定积分 ） A = f ( x 2 +3) 心，该面积如图 2. 22所示， 
我们可以方便地选择 F ( x ) = -|- x 3 +3_ r 。 [ 23 ] 

y = f {x)=x 2 -\-Z 

15 

10 

5 

图 2. 22 4 = ]^(/+31办所代表的区域 

那么， 

A = F (3) - F ( l ) 

= ( + 3 3 +3 X 3)-( + l 3 +3 Xl ) 

= 18 — 3 + = 14 音 
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推荐阅读 

关于微积分入门的书目种类繁多，而我仅仅读过其中的一小部分。当然， 
我最喜欢的是汤普森 （ Thompson ) 和加德纳 （Garnder )(1998) 的著作。关于多 
变量微积分学在社会科学应用中的进一步的讨论，可参见宾默尔 （ Bimnore ) 和 
戴维斯 ( Davies ) (2001) 的研究。 



第 3 章 I 概率估计 


忒:數忒郷_你;獅滅访職谢袭涔货緻 以爾狐 艰钃纖輝劇”礙嚴祕狄較為續 


本章对应用统计学中广泛运用的概率及统计推理进行了概述。我们知道， 
初等统计课程，尤其是社会学专业开设的初等统计课程，对概率估计理论仅仅 
提供了简单的框架介绍。然而，深人了解并熟悉有关话题的背景知识是相当必 
要的。 


初等概率理论 


概率基础 

在概率理论中，实验是对观察的可重复验证 过程; 结果是通过对一个可能 
的观察进行实验所得出的 结论; 实验的样本空间则为所有可能结果的集合。实 
验的任何特定“实现”都会在样本空间中产生一个特定的结果。样本空间可以 
是离散且有限的，或者是离散且无限的，也可以是连续的。例如，掷两次硬币， 
然后记录下每次投掷的结果（出现的是硬币的正面还是反面）。对于此例，实验 
的样本空间是离散且有限的，其结果组合为5= { HH , HT , TH , 7 T }。 如果 
我们反复掷硬币，并记录每次投掷的结果，此时样本空间是离散且无限的，其包 
括的正整数组合有 S = {1, 2, 3,…}。[ 24 ]如果我们把灯泡一直开着直到保险 
丝烧断，并记录下灯泡从打开一直到自然熄灭所需要的时间，此时实验的样本 
空间就是连续的，其包括所有的正实数(这里无需明确指出灯泡寿命的上 限）： 
S = { x ： x >0} o 在本节中，我叙述的内容仅限于样本空间是离散且有限的 
情况。 
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一个事件是实验的样本空间子集，即结果集合。如果包含在结果集合中的 
情况发生，我们就说该事件在实验中发生。例如，对于 s = { HH , HT , TH , 
7 T }， 如果我们得到结果或 HT ， 则事件 { HH , HT }( 代表第一次掷 
硬币出现正面)发生。请注意，通过以上定义，样本空间 S 本身和不包含任何事 
件的零或空 事件彡 = {} 都是事件。 

概率论定理 

4* S = { oi , 0 2 , •••, 0„}表示实验的样本空间; Oi = { oi } ，02 = { o 2 } ，…， 
0„ = { 0 „}表示单一事件，且每个事件包含一个结果 ; 事件£：={ 0 „，％，•••，&}， 
为 S 的一个子空间(下标 a ， 6,…， m 是1到《之间的不同数字）。概率是满足 
如下定理的事件所发生的可能性: 

PI ： Pr ( E )>0： 一个事件发生的概率是非 负的； 

P 2： Pr (£) = Pr ( CU + Pr ( Q ,) + … + P r ( QJ ， 一个事件发生的概率为 

所有构成其结果的和。 

P 3： Pr ( S ) = 1和 p r (0) = 0: 样本空间是穷尽的，即某些事件必然 

发生。 

假设样本空间 S = { HH , HT , TH , TT ) 包含所有结果，且每个结果发生 
的可能性相同 ，即： 

Pr ( HH ) = Pr ( HT ) = Pr ( TH ) = Pr (7 T ) = 0. 25 

那么，对于事件 £：= { HH , HT ], Pr ( f ：) = 0.25+ 0.25 = 0.5。 这个例子比较 
简单，因为每个结果发生的概率都相同，正如扔硬币得到正反面的概率相同一 
样。实际上，只要各结果发生概率之和为1，即符合以上定理。 

在经典统计学中，并且从大多数统计学应用的角度来看，概率是指长期的 
均衡比例 。 S 卩，假如一个事件发生的概率为那么当实验重复多次，这个事件 
发生的概率会接近于 0. 5,而这个接近过程会随重复次数的增多而完善。这是 
客观论者对概率的一般性理 解:概 率为长期的相对频率，即均衡比率。 
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事件之间的关系、条件概率与独立事件 

事件之间存在许多重要的 关系。 两个事件 e , 和拉的交集，记做^ n 拉， 
它包括两个事件中共有的所有结果。因此 , Pr ( E , n ^ 2 ) 表示&和£ 2 同时发 
生的概率。如果 E , f ] E 2 = 0 , 则称&和巧无交集或者互斥。推广后，可以 
知道，一系列事件的交集&门£： 2 (1…包含事件 G 到 事件& 共有的所有 
结果。例如，我们有事件& = { HH , (第一次掷硬币岀现正面）、£ 2 = 

{ HH , TH } (第二次掷硬币出现正面)和 E 3 三 { TH ，7 TK 第一次掷硬币出现 
反面），那么，可知 f ] E z = { HH }, E , n £3 = 0. E 2 n E 3 ={ TH } 0 

两个事件和拉的并集 ^ U £ 2 包含两个事件中所有的 结果; PKf ：, UE 2 ) 
是事件 拉 或者事件 £： 2 发生的概率。那么，事件… U & 的并集是£：, 
到瓦中含有的所有结果。如果这些事件无交集，那么， 

Pr ( E , (J 拉 U … U & ) = 2 Pr ( E ,) 

i=l 

否则， 

Pr (£, u E 2 U … U £*) < i ] Pr ( E ,) 

1 = 1 

由于不同事件中所包含的结果可能有重复，因此某些事件发生的概率之和可能 
大于1。因此，任意两个事件发生的概 率为： 


Pr ( E , U £ 2 ) = Pr ( E ,) + Pr ( E 2 ) - Pr ( E , f ] 


即两个事件分别发生的概率之和减去两个事件交集发生的概率(因为在算两个 
事件分别发生的概率之和时，交集部分被算了两次)。由此，可引申到事件发生 
概率相同的例子(如前所述,&和£ 2 无交集，而£,和£： 2 有交 集）： 

Pr ( E , U £ 3 ) = Pr ( HH , HT , TH , 7 T ) = 1 

= Pr ( Ei ) + Pr ( E 3 ) 


= 0. 5 + 0. 5 
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Pr ( E ! (J E 2 ) = Pr ( HH , HT , TH ) = 0. 75 

= Pr ( E { )+ Pr ( E 2 )- PKE , fl E 2 ) 

= 0. 5 + 0. 5 — 0. 25 

给定 事件^ 、事件 E 2 发生的条件概 率为： 

Pr ( E 2 I E ,) = [3. 1] 

条件概率可以这样 解释: 如果已知事件 £, 会发生，那么求事件£ 2 发生的概率。 
为求得 Pr ( E 2 flE ,) ，我们解方程 3. 1即可得到一般概率的乘法 法则： 

Pr ( E 2 n = Pr ( E ,) Pr ( E 2 | E ,) 

交换 £：, 和 E 2 的角色后，得到以下 方程： 

Pr(E, I E 2 ) = U 2 ) £2) [3. 2] 

Pr ( E , n E 2 ) = Pr ( E 2 ) Pr ( E , | E 2 ) [3. 3] 


如果 Pr (£ 2 f 1£.)= Pr ( E , ) Pr (£ 2 ), 我们说这两个事件为独立事件。方程 
Pr ( E 2 n £.) = Pr ( E ,) Pr ( E 2 ) 称为“独立事件概率的乘法法则”。事件£：,和事 
件 E 2 的独立性暗示了 Pr ( E ,) = Pr ( E , | E 2 ) 和 Pr ( f ： 2 ) = Pr ( E 2 | E ,), 即两个 
独立事件的无条件概率与已知其中一个事件会发生时，另一个事件的发生概率 
相同。推广后可知，若已知一系列独立事件 {£：,, £ 2 ,…，£*}，那么，对于发生 
其中任意两个或多个事件的子集的概 率为： 


Pr ( E a f | f | … D E w ) = Pr ( E a ) Pr ( E 6 )-* Pr ( E m ) 

因此，若已知第一次掷硬币得到硬币正面，则第二次掷硬币也为正面的概 率为: 


Pr ( E 2 I E x )= 


Pr ( E 2 fl E { ) 
PrCEJ 


025 
0. 5 


= Pr ( E 2 ) 
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同理 ,Pt(E 1 n E 2 ) =0. 25 = Pr(£,)Pr(E 2 ) =0.5 X 0. 5。因此，事件 和事 
件£ 2 是独立事件。 

两个事件独立与两个事件互斥不同，因为两个事件互斥暗示了它们不可能 
一起发生，所以，它们是互相依赖的。在我们的例子中，事件和事件£： 2 是独 
立但不互 斥的： E , f ] E 2 = 关0。 

事件£,和事件 E 2 的差包含了所有在事件&中发生而没有在事件 E 2 中 
发生的结果，记做 E'—E 2 。 那么实验样本空间包含的所有事件与事件 £ 的差称 
为“事件 E 的补集”，且 Pr(f) = l-Pr(E) 0 对于之前提到的例子，结果发生概 
率相同的事件石 ={HH, HT}, 其补集发生的概率为 Pr (瓦） = Pr(m, 7T) = 
0. 5 = 1 — 0. 5 。 

Bonferroni 不等式 

令£：=私 n 瓦 n … n &，那么云=云 u 瓦 u … u 瓦，运用之前的 
方程 ，有： 

pr(E! n 拉 n … n &) = pke) = i— p r (E) [ 3 . 4 ] 

k 

>1-1>政) 

i=l 

假设所有事件広，拉，…，&发生的概率都相等，那么对于任意 E ,， 其发生的 
概率都等于 Pr(E ; ) = 1 一 6 。那么， 


Pr(Ei f| £2 fl … 及 ） =1 — a [3. 5] 

^l-kb 

方程 3. 5 与一般方程 3. 4 都称为 “Boneferroni 不等式”。 

方程 3. 5 对线性联立方程的应用有以下暗示 :假设 6 是每& 个非独立统计 
检验的 I 类错误比率(例如，显著水平 a)，a 表示合并的 I 类错误比率，即 6 个非 
独立统计检验中至少错误地拒绝了一个为真的零假设的概率，那么， a 。例 
如，我们在 0. 01显著水平下检验20个为真的统计假设，那么至少错误地拒绝了 
一个为真的零假设的最大概率为 20 X 0. 01 = 0. 20, 即 5 个为真的假设检验中 
就有一个被当做错误假设被拒绝。这提醒我们，有时天真的“数据发掘”可能会 
导致严重的错误。 
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随机变量 

随机变量是定义在样本空间上取值为实数的函数。对于之前所提及的样 
本空间 S = { HH , HT , TH , 7 T }， 一个记录掷硬币结果为正面的随机变量 
X 可定 义为： 


结果 

x 的取值 

HH 

2 

HT 

1 

TH 

1 

TT 

0 


对于此例，如果 X 为离散随机变量，那么，我们通常把 Pr(X = x ) 写成 
pix ) ，其中，大写字母 X 代表随机变量，小写字母 x 表示变量的特殊值。例如， 
掷硬币实验的4个结果发生的概率均为 0. 25,那么出现正面的概率分 布为： 


X 

p(x) 

{TT}— 

0 

0. 25 

{HT, TH}— 

1 

0. 50 

{HH}- 

2 

0. 25 


总计 

1 . 00 


该表记录了所有事件匹配到每个随机变量^值后的结果。 

一个随机变量 X 的累积分布函数 CDF 给出可观测到的变量值小于或者等 
于某个特殊值的概率，记做 PU )： 

P ( x ) = Pr ( X < x ) = 5>(工'） 

x^x 

对于上述例子： 


X 

p(x) 

0 

0. 25 

1 

0. 75 

2 

1 . 00 
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如果随机变量是在一个连续变量空间中定义的，那么，这些随机变量本身 
也可能是连续的。这里，我们仍然用 Mx ) 代表 Pr ( X < x )， 但是，对于随机变量 
X 的每一个具体值来说[ 27 ]，这种表示就会显得没有意义。概率密度函数 PU ) 
是离散概率分布的连续模拟，定义为 p { x ) = dPU )/ djc 0 [ 28 ]变换后得到 

x 

P ( x ) = J p { jc、dx 

Pr ( j ： 0 ^ X ^ xi ) = P { x \ ) — P { x 0 )=| p ( jc)dx 
因此，如图 3. 1 所示，密度函数以下的区域代表概率。 [ 3G ] 



最简单的连续概率分布是均匀 分布: 


p ( x ) = 



a 〉 x 
a 《 x《b 
jc 〉 b 


[3. 6] 


其密度函数见图 3. 2( a )， 相应的累积分布函数见图 3.2( b )。 密度函数下方整个 
区域的大小为1。这里， 

[ p{x)cbc = [ p{x)cbc = ~ (b — a) = 1 

J -oo J a o — a 
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( a ) ( b ) 

图 3. 2 ( a ) 均匀分布的概率密度函数 pU ) 和 （ b ) 均匀分布的累积分布函数 p [ x ) 


一 个随机变量的支持是一组概率或者概率密度不为0的数值。因此，均匀分布 
的支持为 

随机变量的两个基本属性是其期望值(或平均值）和方差。 [31] 从期望值可 
以知道随机变量概率分布的中心(这道理就如同一系列取值的均值指明了由这 
些取值所构成的分布的中心），方差记录了分布相对于期望值的分散程度。随 
机变量的期望值为随机变量通过多次重复试验得到的取值的均值，方差为取值 
和期望值之间的均方距离。 

对于离散事件，随机变量 X 的期望值记做 E ( X ) 或者/«，表 示为： 

EdX) = ^xp(x) 

aJlX " 

对于连续事件，随机变量 X 的期望值表示为「 32 =: 

E(X) = xp(x)dz 

一个随机变量 X 的方差记做 v ( x ) 或者 A ，定 义为： 


因此，对于离散事件， 


vex) = e[(x-^ x ) 2 ] 

= ECX 2 )-^ 
V(X) = 2(x —" x ) 2 /»(x) 

ailX 7 


那么，对于连续事件， 
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V ( X ) = {x — fix ) 2 pioo ) ch : 

J — oo 

随机变量的方差是用平方单位来表示的（例如，“出现正面的次数的平方”），但 
是标准差"的量度单位与变量相同。 

对于我们的例子， 


X 

p(jo) 

xp{x) 

X — fJL 

(•T— "X ) 2 P^JO) 

0 

0. 25 

0.00 

-1 

0. 25 

1 

0. 50 

0. 50 

0 

0. 00 

2 

0. 25 

0. 50 

1 

0. 25 

总计 

1.00 

00 


(7=0. 50 


因此， E ( X ) = 1, V ( X ) = 0. 5, a = 705" ^ 0. 707。同样，对于均匀分布（方 
程 3. 6)， 

E ^ X )= \ b t x ( b ^ a > dx= ^ 


V ( X ) 


a + b 、 


、b 一 


h) dx 


(a-by 

12 


两个离散随机 变量不 和 X 2 的联合概率分布提供了同时观测到两个变量 
的任意一对取值的概率。我们把 Pr ( X ! = Xl 和 X 2 = : r 2 ) 记做如 U ， A ) 。但 
是/>的下标时常会引起歧义，因此，我们将其简化为 PU ', x 2 )„ 两个连续变量 
的 〆 x ,， x 2 ) 的联合概率分布与离散变量的定义类似。多个随机变量的联合概 
率分布的表示方法为/>(工1， X 2 ， …， x „) 0 

不同于随机变量的联合概率分布 ， A (: T ,) 为随机变量 X 的边缘概率分布或者 
边缘概率密度。其中， pl(Xl) = X / p (工 ” 工 2) 或者 P \ (xi ) = [ pOc ” Xi.)djCz , 

J -oo 

我们常常忽略下标而将其记做 pUOo 

在一个掷硬币实验中，我 们用足 记录出现正面的次数，并定义 x 2 = 1时， 
两次掷硬币得到的结果相同， x 2 = 0时，两次掷硬币的结果不同，那么， 





社会科学中的数理基础及应用 


结果 

Pr 

OC} 

X2 

HH 

0. 25 

2 

1 

HT 

0. 25 

1 


TH 

0. 25 

1 


TT 

0. 25 

0 

1 


随机变量和 x 2 的联合边缘分布如下表 所示: 


p(xi , 工 2) 


J0\ 

工 2 

P^OC\ ) 

0 


1 

0 

0 


0. 25 

0. 25 

1 

0. 50 


0 

0. 50 

2 

0 


0. 25 

0. 25 

( 工 2 ) 

0. 50 


0. 50 

1. 00 


给定不 ，兄的条件概率或者条件概率密 度为: 


/ >112( 工】 


、 — p\2 (: Tl ，工 2 ) 

2) — P 2 U 2 ) 


与之前相同，为方便起见，我们常常会省略下标，记做 PU ' k 2 )o 对于该实验， 
当 X 2 = 1 时和当 X 2 = 0 时，条件概率 p(xi |x 2 ) 为： 


P ( 工 1 | 工 2) 


X\ 

X2 

0 


1 

0 

0 


0.5 

1 

1.0 



2 

0 


0.5 

总计 

1.0 


1.0 


给定 x 2 =x 2 时 ，将不 的条件期望值记做或者 fx^u)， 它 
是从条件分布/ >112(x1 |x 2 ) 而来的。同样，给定 X 2 = x 2 时， Xi 的条件方差记做 
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V m CX x u 2 ) 或者 | x 2 ) o 对于一个离散事件， 

E 1!2 (Xi I X 2 ) = 2 Pi 12^1 I ^ 2 ) 

之 , 

V,| 2 (Xi I Xz) = 2 — £ 112 (X 1 I JC 2 )y Pu2^\ I ^ 2 ) 

将具体数值代人后，得到： 

E 1|2 (X, I 0) = 0(0)+ 1(1)+0(2) = 1 

V 1I2 (X, I 0) = 0(0-1) 2 + 1(1-1) 2 +0(2-1) 2 =0 

Ei| 2 (X, I 1) = 0. 5(0)+0(1) +0. 5(2) = 1 

VuzCX! I 0) = 0. 5(0-1) 2 +0(1- 1) 2 +0.5(2-l) 2 = 1 

如果对于随机变量兄和； G 的任意取值，都有 〆 |_ r 2 )， 那么， 
我们说 X ,和 X 2 是独立随机变量。也就是说，如果 X ,和 X 2 为独立随机变量， 
那么， X ,的条件分布与边缘分布是等价的。对于以上题设，其独立性的等价条 
件还有 / >( x 2 ) = pi 工 2 | Xl ) » / >( j：i ，: C 2 ) = pil \ )/)( x 2 ) ,当 X ! 和 X 2 为独立随机 
变量时，它们的联合概率或者概率密度是它们边缘概率或概率密度的乘积。在 
此例中， X ,和 x 2 明显不是独立随机变量。推广之，对于包含《个随机变量的 
独立集合 U, ， X 2 ， … ， X„} ，其每个子集 {X a , X„, 有: 

p(x a , JC h , ••• ， jc „) = p(x a )p(x b ) ••• p(.x m ) 

两个随机变量的协方差为它们是否线性独立的 量度： 

C(X,, X 2 ) =£7 12 = E[(X, -^,)(X 2 -^)] 

-- E(Xi X ?) — (xi/JLi 

当随机变量 X , 较大的取值与随机变量 X 2 较大的取值相关时，其协方差 为正； 
当随机 变量兄 较大的取值与随机变量 X 2 较小的取值相关时，其协方差为负 
(反之亦 然）； 当两个随机变量属于独立随机变量时，协方差为0,但是随机变量 
的独立性并不是协方差为0的充分必要条件，即两个随机变量可呈现非线性相 
关，此时协方差仍可为0。在之前的例子中，兄和不并不是独立随机变量，但 
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是 < t 12 无疑为 0( 读者自己可以证实）。变量本身的协方差就是其本身的 方差: 
C(X, X) = V(X)„ 

随机变量兄和 X 2 的相关性 M =(712^71 仍是个标准化后的协方差。相关 
性的最小值0=— 1，它表示随机变量之间存在完美的反线性关系。同样，相关 
性的最大取值是 P = 1,它表示随机变量之间存在完美的正线性关系。当 P = 0 
时，协方差为0,此时随机变量间不存在线性关系。 

随机向量为方便起见，我们常常将一系列随机变量写成一个随机向量。例 
如 X =[X,，X 2 ，…，—个随机向量的期望值就是其中元素的期望值组 

(wXl) 

成的向量， 记做： 

E ( x ) = f x x = LE ( X l ), E(X 2 ), £(X„)]' 

随机向量 

x 的方差一协方差矩阵定义与纯量方差类似，表达 式为： 

a\ <712 … a\n 

，- ffzi a\ — (T 2 „ 

V(x) = 2 „ = E[(x —n，)(x —n ，)]= 

(nXn) • * 

Pn\ Ora … C\ 

V(x) 的对角元是变量 X 的方差，非对角元是其协方差。方差一协方差矩阵 
V( X ) 是一个对称半正定矩阵。两个随机向量 x 和 y 的协方差矩阵表 示为： 


C(x, y) = E xy = E[(x —^)(y — = 

(nXm) 

其包括了所有随机向量 X 和 Y 内所有元素的所有对协方差。 

随机变董的变换 

假设随机变量 Y 是随机变量 X 的线性函数 a + WC ( 其中,《、6为常数 ），X 






^ * 

•• 

^ y , 


•參 
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的期望值和方差分别为和那么， 

E ( Y ) = hy = ^ (a + fer ) P ^ jc ) 

X 

=a p ( x ) - jcp ( x ) 

= a+bfix 

V(Y) =E[(Y-^y) 2 ] = E{[(a + 6X)-(a + ^x)] 2 } 

= 6 2 E[(X —// x ) 2 ] — b 2 o 2 x 

现在，假设 Y 是两个随机变量&和 X 2 的线性函数兄和不 
所对应的期望值分别为 A 、~，方差分别为¥、 g ， 协方差 为如。 那么，我们 
得到： 

E ( Y ) = fj.Y = 22 (aiA ~\~ a 2 x 2 ) p { x \, x 2 ) 

j i x ! 

=X! ^jCL\Xxp{X\ , X 2 ) + 2 YjCl 2 X 2 p(jO\ , X 2 ) 

^ x \ ^ 

=aj y^jXxpixx ) +a 2 ^x 2 p{x 2 ) 

X \ X 2 

= a\fll +<22"2 

V ( Y ) = E [( Y -^ y ) 2 ] 

= E{[(aiXi + a 2 _ r 2 ) — ( a^i + a 2 y 2 )] 2 } 

= a ? E [( X , -^,) 2 ] + ^£[(^-^) 2 ] 

+ 2a,a 2 E[(X, -^,)(X 2 —" 2 )] 

= a \ a \ + <2^2 + 2 aia 2 ffi 2 

其中 ，兄和 X 2 是独立随机变量，因此 < r 12 = 0,那么，以上表达式可简化为 
V { Y ) = a \ a ] + a $<4。 

连续事件的规则与离散事件相同。例如，如果 Y = a + fec 是一个连续变量 
X 的线性函数，那么 
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E ( Y ) - (a + hx)p(x)dj ： 


p(x)ctc +b\ xp{x)cbc 


=a~\~ bE(X) 


随机向量的变换 

将以上结论推广到随机向量中后，我们得到 ：如果 y 是随机向量 x 的线 

(mX 1) 

性变换 A x ，随机向量 x 的期望值是£(: r ) =押，方差一协方差矩阵为 

(mXn) (nXl) 

V ( x ) =2 灯， 则有： 

E ( y ) = Hy = Ajix 
V ( y ) = Syy — A£ xr A 

如果随机向量 x 的元两两独立，那么，所有的非对角元都为 0， y 中每个元的方差 
可简单表 示为： 

2 _ 2 2 
一" a >j <J X i 

；=1 

有时，对于 y = /( x )， 我们需要知道的不仅是 £ Xy ) 和 V ( y )， 还有 y 的概率 
分布。而且，变换操作 /(•) 也有可能为非线性操作。假设 y 和 x 中的元素数 
目相等(均为《)、/函数是可微的、/与 x 的范围内的值是一一对应的(每一个 x 
都对应一个唯一的 y) ,且最后一个属性暗示了该函数有反函数 X = r 1 (y) 。 那 
么， y 的概率密度可表 示为： 

p ( y ) = p ( x ) det (|^) = pi \) det (|^) 

其中， IdetOx ^ y ) I 叫做“雅可比迭代”，它是 inXn) 行列式的绝 对值： 


-QXj 


故, 


det : 


r?X, 3X n 

WJ 
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I det (3 y /3 x ) | 的定义与 | det (3 x /3 y ) | 类似。 


离散概率分布 

在本章节，我主要对一些重要的离散概率分布类进行详解，如二项分布与 
伯努利分布、多项分布、泊松分布(该分布可构建出近似二项分布），还有负二项 
分布。我们所说的概率分布(例如，二项分布)其实是一个类，但为方便起见，我 
们只说二项分布。本章节的有关离散分布的内容和之后连续分布的内容均在 
统计推理和统计建模中扮演着非常重要的角色。 

二项分布和伯努利分布 

前文提到的掷硬币实验引出了一个二项分布随机变量，该变量记录了一个 
硬币两次投掷后得到正面的次数。将此例引申后，我们让随机变量 X 记录一个 
硬币《次投掷后得到正面的次数。其中，; r 表示任意投掷得到正面的概率(不一 
定为 0. 5) ，1 — t 则为得到反面的概率』 34 」那么,观测到 x 个正面和《 — : r 个反 
面的情况可用一个二项分布来 表示： 


p ( x ) = 7 T X (1 — 7 T )" -1 [3. 7] 

其中， X 是 0 到 《 的任意整数， 因子 〆 — 是在特定情况下观测到: c 个正 

面和 w — x 个反面的概率。 (^)= n !/[ x ! ( n - x )!] 是二项系数，它是出现 x 个 
正面和 n — x 个反面的所有组合的数量。[ 35 ] 

二项分布随机变量 X 的期望值为 E ( X ) == wr ， 方差为 V(X) =m(l —兀 ）。 
图 3. 3展示了当 n = 10及 ; r == 0. 7时的二项分布。如果乘积项 wr 和 ? j (1 — tt ) 
足够大(例如，都至少等于 10), 那么离散二项分布可以近似看做连续正态分布， 
且其均值和标准差都与连续正态分布相同。 
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图 3. 3 n = 10及 ?r = 0.7 时的二项分布 


二项分布随机变量与伯努利随机变量不同，后者在取0和1的时候所对应 
的概率分别是江和 1—; r ， 其均值和方差分别为 £( X ) = ; r , V ( X ) 

伯努利随机变量可以用来对一次投掷建模。例如，假设 X = 1为出现硬币的正 
面 ，X = 0为出现硬币的反面，那么，独立且同分布的伯努利变量的加和是一个 
二项分布。 

多项分布 

假设在《次重复独立的实验中，每一次实验的结果都出现在々个不同的 
结果类别中（对于该实验，总共会出现々种结果）。我们让随机变量 X ,表示类 
别 z 中的结果数量，让 7 T , 表示每次实验的结果落入类别 Z '中的概率。那么， 

=丄， E : =1 x ， = ”。 

如果我们掷 n 次骰子，让 X ,记录出现1的次数 ， X 2 记录出现2的次数…… 
X 6 记录出现6的次数。因此，々= 6，； n 表示掷出1的概率，; r 2 表示掷出2的概 
率，等等。如果骰子就是普通的骰子，即其各个面的数字不同，则有 ； n = 

7T2 = "• = ^6 = 1/6„ 

推广到一般情况可知，如果向量随机变量'[[兄， X 2 , …，兄]'符合多项 
分布， 则有： 
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p(\) = p(jCl ，工 2 ，•••， J"*) = ^ Ijc j'.-.j \ K ' ^ 

该公式的原理与二项分布公式相似，即矸 jt ? …; r ? 分别为在特定情况下，结果在 
类别1中出现的概率，结果在类别 2 中出现的概率，等等。 «!/(x t ! x 2 ! … a!) 
记录了不同组合的个数。如果6 = 2,那么， x 2 = n-x,, 此时，多项分布即简化 
为二项分布(见方程3.7)。 

随机向量 x 中，元素的期望值为 E(X,)=njr l , 方差为 V ( X ,) = w ,(1 
其对应的协方差为 C ( X ,， 弋） =—«; r ,; r ,。 


泊松分布 


19世纪法国数学家西蒙-丹尼 • 泊松 （ Simton-Denis Poisson ) 引人了以其 
名命名的一个近似二项分布。该近似在《足够大、 / r 足够小且其乘积 A = w 适 
中的情况下成立。泊松分布的表达式为： 

p(x) = ~ e . (x = 0 ， 1 ， 2 ， 3 ，…且 A 〉 0) 

x ! 

尽管 X 所包含的均是非负整数，但由于 p ( x ) 〜0,因此该近似只有在: c 足够大 
的情况下才可行(这里， e 是一个数学常数， e 〜 2. 71828 ). 

泊松分布只用于极少见或不经常发生的现象。假设我们所观测到的过 
程所产生的事件比较特殊（如岀生或者其他自发事件），对于事件 X ，我们会 
记录下其在某个固定时间段发生的次数，如果该发生次数符合以下条件，则 
其遵循泊松分布： （ 1 ) 尽管事件发生的时间是随机的，但是在某个观测间隔 
下，其发生率是固定的。 （2) 如果我们将注意力放在一个充分小、间隔长度 
为^的子间隔内，那么，在该间隔内观测到一个事件的概率与其所在的间隔 
长度^'成正比，在该间隔内观测到多于一个时间的概率几乎小到可以忽 
略。这样，参数 A 即事件的发生率。 （3) 在不重叠子区间发生的事件是独立 
事件。 

泊松随机变量的期望值是 fXX) =A, 其方差 V(X) 也是 A 。 图 3. 4 描述了 
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参数 A = 5 ( 有 5 个事件发生在观测的固定区间）时的泊松分布。 



图 3. 4 参数为 ;I = 5的泊松分布 


负二项分布 

假设在掷硬币实验中，每次投掷都是独立的，并一直持续到一个目标数量， 
如出现 S 个正面后停止，此时，我们让随机变量 X 记录目标数量达到前，出现反 
面的次数。那么， X 遵循一个负二项分布，其概率分布的表达 式为： 

p(x) = + = 1 ) 兀 4 (1 ~nY (x = 0 ， 1 ， 2 ，…） 

其中，; r 是每次掷硬币出现正面的概率，该负二项分布的期望值为 E(X)=5(1- 
iz) Ik ， 方差为 V(X) = Kl— 7 T )/7 T 2 。 图 3. 5 表示当 5 = 4 及 7 T = 0. 5 时的负二项 
分布。 


户⑺ 



图 3. 5 5 = 4及; r = 0.5 时的负二项分布 
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连续分布 

在本章节中，我会介绍一些重要的连续分布类型，如正态分布、卡方分布^ 
分布、 F 分布、多元正态分布、指数分布、逆高斯分布、 y 及0分布。 

正态分布 

正态分布(或高斯分布)随机变量 X 的概率密度函 数为： 

, 1 「 (x-»)H , 

p(x) =— 7=exp| --- (― 00 < x < oo) 

a s/2n L 2<r 2 」 

其中，分布参数/^和^分别为 X 的均值和方差。因此，对于每个^和都有一 
个不同的正态分布。图 3. 6给我们列出了几个例子。正态分布常见的缩写形式 
为 X 〜 AK", < t 2 )， 它表示 X 是一 个以" 为均值、以 a 2 为方差的正态分布。尽 
管法国数学家亚伯拉罕*棣莫弗 (Abraham de Moivre) 已于 1973 年第一次引人 
了这个近似二项分布的概念，但是高斯分布仍是以伟大的德国数学家卡尔•弗 
里德里希 • 高斯 (Carl Friedrich Gauss) 这一对正态分布有着重要贡献的数学家 
命名的。 


P(X) 



图 3.6 正态概率 函数: N (0, 1>、 N ( 5 , 1) 和 N (10, 9> 
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单位正态分布(或者标准正态分布）的随机变量 z 〜 N (0, 1) 的密度函数在 
统计上有着非常重要的用途，其表达 式为： 

中 (z) =— ^exp(—z 2 /2) (― co <； z <； oo) 

72^ 

该分布的累积分布函数中 ( z ) 如图 3. 7所示。任意正态分布随机变量 X ~ 
N ( m , </) 都可以转化为标准形式「 37 ] : 

2三 


0(z) 



Z 


图 3. 7 单位正态分布的累积分布函数 0 (z) 


卡方分布 

如果乙， z 2 ，…， z „ 为独立的标准正态分布随机变量,那么， 

X 2 三名+名+…+式 

其遵循一个含有《个自由度的卡方分布，简写为 Z 。 卡方随机变量的概率密度 
函 数为： 

pu 2 ) =—— (x 2 ) ( - 2,/2 exp(-x 2 /2) (x 2 > 0) 

2" / 2 r(f) 


其中， r ( _ ) 是一个 y 分布函数， 
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F(u) = e^z^dz (通用参数 u> 0 ) [ 3 . 8 ] 

J 0 

它是连续阶乘函数的一般形式。特别是当 u 等于一个非负整数时 ， u! = r( y +i), 
我 们有： 

■(号一 1 )! (” 为 偶数） 

r ( 互 ） =< 

2 丨(晉 一1)(1 一2)…(音 )(+)‘ （《 为奇数） 

卡方随机变量的期望值和方差分别为 E(X 2 ) = n 和 V^X 2 ) = 2 » 。图 3 . 8 
列出了一些卡方分布。如图所示，卡方分布是正偏的，但是随着自由度的增加， 
该分布变得越来越对称，即趋近正态分布。 

如果 X ， X 〗， … ，； ! ：〗分别为自由度是〜，， … ， n* 的卡方随机变量，那 
么入 =¥+；^ +… + X 〖遵循自由度为《 =„,+„ 2 + …+ 叫 的卡方分布。 

P{oc z ) 

0.5 

0.4 

0. 3 

0.2 

0 . 1 

0.0 

0 5 10 15 20 

x 2 

图 3.8 卡方密度函 数:; f ?、 Z 和％ 



学生 f 分布 

如果 Z 遵循标准正态分布，且 X 2 遵循〃个自由度的卡方分布，那么， 
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这就是一个有 W 个自由度的学生 i 随机变量，简写为4。[ 38 ]其概率密度函 数为: 


p ( t ) 


v^r ( 号） 


,(”+ 1)/2 


(—oo < 艺 < oo) 


[3. 9] 


该公式在 f = 0点中心对称，因此£(0 = 0。 「 39 ] 我们可以发现，对于任意 n >2, 
V ( t ) =«/(n — 2)，因此，对于自由度为 n 的分布， f 的方差比较大，随着《的增 
加，方差越来越趋近1。 


PU) 



图 3.9 ^密度函数 :G、G 及 L = ~(0, 1} 

图 3. 9描述了一些 t 分布图形。当自由度增加时，《分布越来越趋近标准正 
态分布，直到 L = N (0, 1)。当72>30时，《分布的方差就趋近于1， i 分布也就 
可以近似看做标准正态分布。 

学生 f 分布以20世纪英国都柏林吉尼斯啤酒厂的一名统计学家威廉•西 
利 • 戈塞特 (William Sealy Gossett ) 命名。戈塞特曾以“学生”为笔名在《生物计 
量学》杂志上发表了论文《平均数的规律误差》。这篇论文开创了小样本统计理 
论的先河。学生 i 分布对小样本统计推理的发展起到了举足轻重的作用。 

F 分布 

令¥和 X 〗分别代表自由度为叫和 n 2 的卡方随机变量。那么， 
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„ X \ ln , 

它遵循自由度为〜和 m 的 F 分布，简写为。 F 分布是美国统计学家乔 
治 • W. 斯内德克 (Geroge W. Snedecor) 为奖励其发现者一伟大的英国统计 
学家 R. A. 费希尔爵士 (Sir R. A. Fisher) 而命名的。 

F 分布的概率密 度为： 


Ti 


rii + n 2 ' 


户 （/) 


r 


f ri ] 、 


r 


(f) 


'rh 

^ n 2 


rvi +» 


—(n,4-nj)/2 


(/ >0) 


[3. 10] 


比较方程 3. 9 和方程 3. 10可以发现， t z n = F Un , 而且，随着 变大， F ” 愈发 
趋近于直到匕,„ =€/”。 

对于任意屯>2, F 的期望值为 E(F) =n 2 /(；2 2 — 2)，的取值越大，其越 
趋近于1。对于叫 >4， 


V(F) 


2 yig (行 1 ~l~ n 2 一 2) 

n \ {nz 一 2) 2 (^2 一 4) 


图 3. 10 描述了一些 F 概率密度函数。我们很容易发现， F 分布是正偏的。 


户 （/) 



F 

图 3. 10 F 密度函数 ：F 2 .,。、F 4 . 1() 和 F 4 , 100 
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社会科学中的数理基 a 及应用 


多元正态分布 


一个均值向量为 h 正定方差一协方差矩阵为 S 的多元正态分布随机向量 
x = [ X ,, X 2 , X „]' 的联合概率密度可表 示为： 


p(x) 




exp 


— j ( x —^ yir 1 (x — n ) 


通常，我们将其简化为 x 〜 N „( n ， S )。 

如果 X 是多元正态分布随机向量，那么其包含的元素的边缘分布是单因素正 
态分布，记做 X ,〜 Nk ,， 给定任意子集的向量，剩下变量的条件分布为 
/>(& | x 2 )， 其中， x ={ Xi ， x 2 } 也是正态分布的。那么，如果 X 〜2)， 则有： 

y = A x 

(wiXl) (mXnKnXl) 

秩为 rank ( A ) = 的随机向量 x 的线性变换，那么 y 〜 N m ( Afi ， 如 

果随机向量 x 的协方差矩阵 S 是奇异的，但是 x 的极大线性无关子集为多元正 
态分布，那么，我们就说随机向量 x 遵循奇异正态分布。 

有关 "1 = 5, " 2 = 6, (ji = 1. 5, ( t 2 = 2, ^2 = 0. 5( 如 ( j 12 = (0. 5)(1. 5)(3) 
= 2. 25) 的二元正态密度函数请见图 3. 11。 
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指数分布 

指数分布是一系列以 A 为主参数的连续分布，它具有密度 函数： 

= Ae _Ar (x J5 ： 0) 

X 的期望值和方差分别为 E ( X ) = 1/ A ， V ( X ) = 1/ A 2 。图 3. 12 描绘了几个具有 
不同参数的指数分布。指数分布具有高度的正偏性，因此，当事件出现的“风 
险”在观测期中是一个常数时，它常被用于时间到事件数据的建模。 



0 5 10 15 


图 3. 12 关于不同参数； I 的指数分布 


逆高斯分布 


逆高斯分布是关于两个系数//和 A 的连续分布，它具有密度 函数: 


pU) = 



A(x — pi ) 2 
2_r" 2 


(x>0) 


X 的期望值和方差分别为£(幻 ="， V ( X ) 二 / Z / A 。 图 3. 13描绘了几个逆高 
斯分布。逆高斯分布的方差随着其均值的增大而 增大; 偏度随着 p 的增大而增 
大，随着 A 的增大而减小。 

逆高斯矩阵和伽马分布(下面即将介绍)常用来对非负连续数据建模。 
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社会科学中的数理基础及应用 



X 

图 3. 13 关于不同参数 A 和^的逆高斯分布 


伽马分布 


伽马分布属于连续分布，它是具有尺度参数0和形状参数平 > 0的概 


率密度 函数: 


p(x) 


x_ 

k CO 


W exp\ 


； r(^) 


(x > 0) 


其中， r ( •) 为伽马函数（见方程 3.8)。 伽马分布的期望值和方差分别为 
E ( X ) = co ^, V ( X )= o ^ 2 。 图 3. 14描述了在尺度 co=l 下，不同形状参数氺的 
伽马分布(改变尺度参数仅会使图像在水平轴上平移)。 
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如果 ； Ch &，•••，兄是具有相同尺度参 数〜不 同形状参数％，奶，…， 
奶的独立伽马随机变量，那么 x = ^ + x 2 + —+& 为具有尺度参数⑴和形 
状参数平=%+奶+…+奶的伽马分布。 

含有 n 个自由度的卡方分布和具有尺度参数⑴= 2及形状参数平=«/2的 
伽马分布是相等的。主参数为 A 的指数分布和具有尺度参数 w = 1 A 及形状参 
数少=1的伽马分布是相等的。 


贝塔分布 


贝塔分布是包含两个形状参数《〉0，/?〉0的连续分布,它具有密度 函数： 
PU) = - ~Bla, p) ( ° <X<1) 

其中， B ( a , 口)三 为贝塔函数。贝塔分布的期望值和方差分别为 

E ( X ) = a /( a +^), V ( X ) = (q + ^ )2 ( °^ + ^ + ^ ° 因此，期望值取决于参数 a 、 0 

的相对大小。如当《=卢时，扮又）=0.5。偏态也同样取决于参数的相对值，且 
当《=/3时，分布是对称的。方差随《、戸的增大而减小。图 3. 15描绘了几个贝 
塔分布。很明显，贝塔分布的变化很灵活。 

P{x) P(x) 



( a ) ( b ) 

注 :在图 3. 15( a ) 中，很明显，当 《 = /?= 1 时，贝塔分布退化为矩分布。图 3. 15( a ) 描绘了对称的贝塔 


分布，图 3. 15( b ) 描绘了反对称的贝塔分布。 

图 3. 15不同 ct 、0 组合的贝塔分布 
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社会科学中的数理基硇及应用 


渐近分布 理论： 初步介绍 

有时，因为很难确定统计变量的小样本性质，所以研究一个变量随着样本 
增大的表现就变得尤为重要。渐近分布理论就为这类研究提供了工具。在本 
章节，我仅对该理论进行概述，更完整的叙述可参考其他相关书籍。 

极限概率 

渐近分布理论常被应用于随机变量序列中。但是，我们有必要先考虑非随 
机无限序列 U ,， a 2 ，…， 《»， -}= 关于“非随机”，我指的是每一个而非随机 
变量是固定的。读者可能会注意到，如果对于任意无限小的数 e ， 总是存在一个 
正数《( £ )，对于所有的《>»(£)，有 I a„- a |< e , 那么我们称该数列存在极限 
〜换句话说，只要》足够大，〜就可以任意地接近 a 。《( e ) 强调了《值取决于 
我们所选择的标准 e (请参见前文有关函数极限的定义）。为了使表述更简洁， 
我们可以用表达式 lima „ = a „ 例如，若 a „ = l + 1/ n ， 那么 lim a „ = 1。图 3. 16 
描绘了该数列及其极限。 

1-hl/n _ 

2. Op ~ 


0.5- 

0 . 0 :_ | _,_ | _ 1 _ 

5 10 15 20 

n 

图 3. 16 具有极限 a = 1的序列= 1 +1//|的前20个值 

我们现在考虑随机变量序列{兄， x 2 ，…，又，…}。在应用统计中， x 为 
估计量， W 为该估计量的样本大小。让 p „= Pr (| X„-a |< 5), 其中 a 是一个常 
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数，5是一个很小的整数。我们可以把％想象成乂„逐渐接近 a 的概率。假设 
非随机概率序列{外 ，外 ，…， A ，…}以1为极限[ 41] ，即 Hm Pr ( I X„-a |< 
S ) = 1 0 那么随着 《 的增大，随机变量将在 a 的小范围区域内更接近 a ， 图 
3. 17描述了此情形。如果无论5多么小，该结果都成立，那么我们说 a 是 X 的概 
率极限，表示为 plimX „ = a s 为方便起见，我们可以把《去掉，记作 plimX = a 0 



注 :随着 n 的增大,将越来越接近 a 。 

图 3. 17 plim X „ = a 


概率极限具有如下重要 性质: 假如 plim X = a ，且 Y = /( X )为 X 的连续函 
数，那么 ， plimY = /( a )。 同样，如果 plim X = a , plimY = b , Z = /( X ， Y ) 为 
X 和 Y 的连续函数，那么 Z = / U ， 6)。 


渐近期望均值和方差 


回到随机变量序列 U 15 X 2 , …， X „， •••}，并令&为&的期望值。那么， 
{ Ml , (12 , …， ~， … } 为一个非随机序列。如果该序列趋近于一个极限//，那么 
我们说"为 X 的渐近期望值，记做 e (； Q 。 

尽管我们会很自然地把渐近方差的定义序列与方差的极限进行类比，但是 
该定义无法让人满意，因为在许多情况下（下面将举例说明）， limVCXJ = 0 o 

n-^oo 

假设我们计算一个从均值为 / i 、 方差为 < T 2 的总体中抽取的(大小为 《) 样本均值， 
将其记做元。由初等统计学可知， £：(^) ，另外， 


V ( X „) = E [( X „-^) 2 ] = 




n 
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因此， limVCXJ =0,把 W 加入中括号内，有 £：{[‘ (元 一 //)] 2 } = </，将其除 
以》然后取极限即可得到我们想要的结果，此时样本均值的渐近方 差为： 

u(X) = lim 丄 E{[V? ( 元一户 )] 2 } 

n-»oo 77 

= —e{[Vn(X rl — ")] 2 } 
n 

= i_ 

n 

该结果没有什么特别之处，因为 v ( x ) = y ( x ) 。事实上，这与一开始给出的渐近 
方差的定义是等价的。在实际应用中，当有限样本方差不可求时，还是有可能 
找到渐近方差的。此时，我们可以将渐近结果当做大样本的近似。 

通常，如果 X „ 的期望值为那么， X 的渐近方差定义为 [42] : 

y(X) =^-e{[y^(X„-^„)] 2 } [3. 11] 


渐近分布 

让 { P ,， P 2 ，…， P „， 代表随机变量序列{ X ,， X 2 , …，； C ,， … } 的累积 
分布函数。假如对于随机变量的所有值: T 和任意无论多小的数我们总能找 
到一个足够大的数 We )， 那么，对于所有的《>»(£)，都有 I P n ix )- PU ) \< 
e ; 那么,我们说 X 的累积分布函数收敛于渐近分布 P 。 

中心极限定理描述了一组独立同分布，且具有有限的期望值和方差的随机 
变量的均值遵循近似正态分布，该近似过程随着随机变量数目的增加而加强。 
例如，有一个样本大小为 〃、主 参数为 A ， 且高度偏斜的指数分布，其均值;^和方 
差^都为1。我们知道，指数分布是伽马分布的一个特例，其形状参数少=1， 
尺度参数 o ； = l / A ， 那么，样本的和^^^，(即/^^是形状参数少二〃、尺度参 
数 w = 1的伽马分布。图 3. 18描绘了从指数分布总体得到的样本均值又的抽 
样分布密度函数随样本量大小的变化，且每一种情况都比较了又的真实伽马样 
本分布与近似正态分布 N ( l , 1/«)，正态近似随样本量的增加而愈发精确（而又 
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的抽样分布的方差随之减小）。 



-2 0 2 4 6 

X 




注:图 3. 18( a ), W =1 所对应的 X 的总体分布。在每一张图中，实线为真实(伽马)抽样分布 X 的密度 
函数，虚线为正态近似 N ( l ，1/ w ) 的密度函数。 

图 3. 18中心极限定 理：从 指数分布总体(主参数为 ;I = 1 ) 得到的(样本置的大小不同） 

样本均值元的抽样分布 


随机向量与随机矩阵 

我们将以上结果扩展到向量和矩阵中，得 到:当 plimX , = a ,( z '= l ,2, 

时 ， plim x = a 。 plim X = A 意味着，对于所有的/和 j ， plim & = %。随 

(mXl) (/mXI) (»nX/>) 

机向量 x 的近似期望值定义为由其中元素的近似期望值组成的向量，即 Jl = 
e ( x ) = [ e ( X ,), e ( X 2 ), e ( X ,„)]'。 x 的渐近方差一协方差矩阵定义为： 

y(x) = { [\/ n ( x „ — ) ] [7 n ( x „ — n „) ]'} 
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社会科学中的数理基硇及应用 


统计估计量的属性 [43] 


一 个样本统计量（即一个有关样本中众多观测的函数）的估计量是用来估 
计总体参数的。由于其数值因样本不同而异，因此估计量是一个随机变量。估 
计是特定样本估计量的数值。估计量的概率分布称为“抽样分布”，该分布所对 
应的方差称为估计量的“抽样方差”。 

偏差 

如果 £( A ) = a ， 那么我们说参数 a 的估计量 A 是无偏的。因此， E ( A)-a 
即 A 的偏差。 

假设我们从均值为方差为的总体中得到《个观测 X ,，那么，我们说样 
本均值 X = 兄/«是的无偏估计量，同时， 



5 2 .是/的有偏估计量，因为 E ( S 2 .) = [( n - l )/ n > 2 , S 2 , 的偏差因此等于 
一 V / n 。 有关抽样分布的无偏及有偏估计量，请见图 3. 19。 



因为 E ( A 2 )> a ， 因此估计量為是正偏的 
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渐近偏差 

参数 a 的估计量 A 的渐近偏差是 e ( A )— a ， 那么，如果 e ( A ) = a ， 则估计量 
A 是无偏的。由于当 oo 时， 一//« — (), 因此 S 2 . 是渐近无偏的。 

均方误差与有效性 

一个估计量是无偏的意味着，其重复样本的平均数值和总体估计参数相 
同。很明显，该特征应该是估计量最理想的性质。但是，如果样本估计量和总 
体估计参数不接近的话，那么该估计量则是无用的。对于期望值，一些样本的 
较大的负估计误差可以抵消其他样本的较大的正估计误差。 

参数 a 的估计量的均方误差 ( MSE ) 是估计量与参数之间的差异平方的均 
值，即 MSE ( A ) = E[(A — a ) 2 ]。 估计量的有效性与其均方误差成反比。通常， 
我们比较倾向于有效的估计量。 

由于 E ( A ) = a ， 因此，一个无偏估计量的均方误差，简单地说，就是其抽样 
方差。而对于一个有偏估计量， 

MES ( A ) = E [( A - a ) 2 ] = E {[ A - E ( A )+ E ( A )- a ] 2 } 

= E {[ A - E ( A )] 2 >+ [ E ( A )- a ] 2 + 2[ E ( A ) - E ( A )][ E ( A )- a ] 

=V(A) + [&a5(A)] 2 +0 

当一个估计量的有效性增加时，其抽样方差及偏差会减小。那么，比较两个估 
计量，抽样方差上的优势可以更多地补偿其偏差劣势，如图 3. 20所示。 



注:尽 管估计量 a 2 是有偏的，但是 a 2 相对于无偏估计量 A , ，是参数^的一个更有效的估计量，原因在 
于, a 2 的小方差性可以部分补偿其偏差性。 


图 3. 20估计置的相对有效性 
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社会科学中的数理基础及应用 


渐近有效性 

渐近有效性与渐近均方误差 （ AMSE ) 成反比，且渐近均方误差是渐近方差 
和渐近偏差平方的和。 


一致性 


如果 plimA = a , 那么参数 a 的估计量 A 是一致的。一致性的充分(非必 
要)条件是估计量本身是渐近无偏的，且抽样方差随着《的增加趋近于0。该条 
件暗示了估计量的均方误差的极限为0。图 3. 17描述了 a 的估计量 X 的一致 
性。方程 3. 12表示，估计量 S ! 是总体方差的一致估计量，尽管在有限样本 
中，它本身存在偏差。 

充分性 

充分性的概念比无偏、有效及一致更 抽象: 如果在样本中，统计量详尽地表 
达了参数《的所有信息，那么，基于观测值的统计量 S 符合充分性条件，或者可 
以说，假设观测值兄 ，不 ，…，是从以《为参数的概率分布中得来的。我们 
让统计量 S = /( X ,, X 2 , X „), 如果观测值的概率分布是以 S 的数值为条 
件的，也就是说 p { x ') x 2 , •••, x „ I S = . s ) 与 a 无关，那么 S 即一个 a 的充分统 
计量。注意，充分统计量 S 不是参数《的估计量。 

要描述充分性，我们可以 假设〃 个观测都是独立采样得来的，对于每个观 
测， X ,为1的概率为 7 T , 为0的概率为 1 — 1 即，; C 是独立同分布的伯努利随机 

变量。在这里，我会证明样本总和是江的充分统计量。如果我们 
已知 S 的值 , 则对于 S 的不同种组合 （s = 0; .s = l ) ，数目为且每种组合 
的可能性为 l / 我们知道，随机变量 S 遵循一个二项分布，由于其概率与 ; r 
无关，因此，统计量 S 是; r 的充分统计量。同理，样本比例 P = S / n 也是一个充 
分统计量。样本比例 P (而不是总和 S ) 是 7 T 的估计量。 

充分性的概率可以延伸到一组参数和统计 量上: 已知一个样本(可能为多元) 
中的观测为 X ,， X 2 ,-, &，如果观测的条件分布决定了 5与(1无关，那么，向量统 
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计量 s = [S! ， S 2 , …， Sp]' = /( x , ， Xg ，…， xj 是参数 a = [m ， o：2 ，…， oj 的联 
合充分统计量。例如，独立随机变量的均值又和 S 2 分别是正态分布参数 v 和^ 
的联合充分统讨量(因为样本总和与平方和 Exf 所包含的信息与又和 S 2 
相同)。如果没有更小的充分统计量组，那么该组充分统计量则是最低充分统计 
量组。 

稳健性 


当一个估计量的有效性(及其相对其他估计量的有效性)不极大地依赖于 
数据分布，那么我们说该估计量是稳健的。 

还有另一种稳健性，称为“效度稳健性”，我们要将它与有效稳健性相区分。 
对于统计推理过程，如果其效度不极大地依赖于数据分布，那么，我们说它是稳 
健的。因此，即使检验违反了分布假设(如正态分布假设），稳健性假设检验的户 
值仍可看做是近似准确的。同样，如果置信区间的覆盖率与之前所陈述的相同 
(例如，一个95%置信区间覆盖了差不多95%的样本），即使有时会违反分布假 
设,但我们仍说该置信区间是稳健的。当一个检验或者置信区间是基于一个无 
效估计量的，如果检验的统计功效很低，或者置信区间很宽，那么，该检验或者 
置信区间的效度稳健性就很低。 

要具体描述有效稳健性，我们就要把重点放在估计一个对称分布的中心^ 
上。 [44] 只要 X 存在有限方差 < r 2 ，那么，样本均值 X 的方差为 V ( X ) 这里 

的„是样本量(与基本统计的结果一致)，且样本中位数的方差与 X 的分布 有关： 

VX median ) — p —\~^ 

其中， 〆 工。. 5 )为入 为总体中位数时的密度。 

运用到正态分布的总体上则有 X 〜 iV(p ¥)，中位数方差为 V ( medi an ) = 
^72«,因此，样本均值相对于中位数是一个相对有效的统 计量： 

VCmedi^ = ^2» = ? 

o 1 In 2 


V ( X ) 
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为了保证准确性，用样本中位数来估计 p 所用的样本量是用样本均值进行估计 
时的 1. 57倍。 

相反，假设 X 服从自由度为3的/分布，该分布相对于正态分布，尾部较重 
且较长。那么， a 2 = 3/(3 —2) = 3， pu 。） = 户 (0) = 0. 3675，因此， 

V ( X ) =— 

72 

t ,/ 1- 、 1 1.851 

V(medmn) = 4«(0.3675 2 ) = 丁 

对于此例，均值只有 1. 851/3 = 0. 617(62%)。因此，在这里，均值与中位数一样有效。 

稳健性对于异常数据具有耐抗性，一个耐抗估计量不会被小部分的异常数 
据所影响。均值对异常值的耐抗性比较小，这点很容易证 明：从 一个标准正态 
分布中抽取一个含有6个观测的样本，如下 所示： 


X \ = — 0. 068 

x 2 = 

=-1. 282 

X 3 = 

0.013 


X 4 = 0. 141 

x 5 = 

:一 0. 980 

X e = 

1.263 

[3. 13] 


这些值的均值为 X =-0. 152。如果我们想加入第七个观测，即 X 7 , 它可取从 
一 10到 + 10( 或者范围更广一些，例如，从一 oo 到 +〜） 的一切可能数值。该结 
果称为均值的“影响函数”，如图 3. 21( a ) 所示。很明显，随着 X 7 的取值趋向于 
极值，样本均值也不断 增大。 
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与估计耐抗性相关的一个概念称为估计值的“崩溃点”。崩溃点是估计值 
可以耐受而不会被任意异常大的值所影响的“坏”数据部分。均值的崩溃点是 
0,因为正如我们所看到的，一个不好的观测可以任意地改变均值的大小。相 
反，中位数的崩溃点为50%，原因在于，即使有一半的数据是“坏”的，中位数也 
不会被完全影响。 

M 估计 

用均值将最小二乘目标函数最小化后 得到： 

i = l i=\ 

该均值影响函数的形状为目标函数对残差求导的 结果： 

^ ls ( E ) 三 ^ olsCjE ) = 2 E 

影响函数因此和£：成正比。那么，将最小二乘目标函数重新定义为 pdf：) = 
jE 2 会更加方便，这样的话， 0 ls (£：) = £。 

现在考虑样本中位数是//的估计值的情况。中位数最小化了最小绝对值 
(LAV) 的目标 函数： 

y!pij\v(£ t ) = y^)0LAv(X t —fi )=2 \ Xi — I 

«=1 i=l i = l 

结果我们发现，中位数对异常值的耐抗性比均值强得多。有关中位数的影响函 
数请参见图 3. 21( b )。 与均值相反，中位数在观测差异上的影响是有界的。之 
前提到过，目标函数的导数决定了影响函数的形状 [45] : 

.1 (E>0) 

ipLAv ( E ) = jOLAV = ^ 0 (E = 0) 

^ — 1 (E <C 0) 

尽管中位数对异常值的耐抗性比均值更强，但是，如果 X 为正态分布，中位 
数就不如均值有效。因为其他目标函数与对异常值的耐抗性加在一起，其有效 
稳健性就大大提高了。我们将可以最小化目标函数的估计值称为 
“ M 估计 量”。 
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两个常见的 M 估计量是 Huber 估计量和双权或者双平方估计量。 Huber 
估计量是以发现 M 估计量的彼得 • J . 胡伯尔 （Peter J . Huber ) 命 名的； 双权估 

计是由约翰_ W . 杜克 (John W . Tukey ) -个为统计学作出了重大贡献(其 

中包括稳健估计)的著名美国统计学家发明的。 

Huber 估计量是最小二乘与最小绝对值之间的权衡，其数据的中心靠近最 
小二乘，而尾部与最小绝对值相似。 


押（£) 


4E 2 


k I E \-^ k 2 


(| E |<々) 
(I E |〉々） 


图 3. 22 描述了 Huber 目标函数即 、即 的导数和影响函数 0 H 』 47 ] 



注:要 校准这两张图，细调常数需设置为 A = 1 (请见文中有关细调常数的讨论）。 

图 3. 22 Huber 目标函数 p H (a) 和影响函数 y/ H (b) 


(k ( E > k ) 

0„( E ) =<E (| E |<々） 

— k (E <— k ) 

在这里，定义分布中心及尾部的々值称为“细调常数”。我们常常把细调常数表 
达成多尺度变量 X (如展宽），即取 A = cS ， 其中， S 是尺度的量度。样本标准差 
是一个不太好的尺度量度，因为它被异常值影响的程度比均值大。常见的尺度 
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稳健量度是中位数绝对偏差 ( MAD ) : 

MAD = median | X ； — | 

最初，我们用变量 X 的中位数作为 / T 估计，然后我们定义 S = MAD /0• 6745,其 
保证了当总体分布为正态分布时， S 是标准差 <7的估计。用々= 1.3 4 5 S (如 
1. 345/0. 6745〜 2 MADs ) ,相对于样本均值，在总体为正态分布时，加上总体为 
非正态分布时其对异常值所产生的相当的耐抗性的情况下，它可以产生95%的 
有效性。一个细调常数越小，其产生的耐抗性越大。 

双权目标函数达到平衡或者说变平后的残差非常大 [48] : 


k 2 


1-1 


E 

~k 


Pm 


(E)=< 


k 2 


(| £ |< 走) 

(I E\>k) 


因此，双权估计量的影响函数可以再降到0,从而完全地扣除充分异常情况的 影响: 


0BW ( E ) 



(I E |< 々 ) 


0 (| E\>k) 


图 3. 23描述了有关~和 0 bw 的函数。在样本正态分布时，用 k = A . 685 S (如 
4. 685/0. 6745〜 7 MADs ) 可以产生95%的有效性。 



(a) 


E 





注:要 校准这些图形，细调常数需设定为 A = 1。当 IEI 很大时，影响函数“降”为0。 


图 3. 23双权目标函数 PbwU ) 和“影响函数 
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当 MAD 用于估计尺度时， Huber 和双权估计值均可实现崩溃点为 50 %。 

计算 M 估计值通常需要用到迭代(尽管对于均值和中位数，迭代并不是必 
须的，然而正如我们所见，其与 M 估计的框架相适应）。/?的估计方程式把目标 
函数的差异设置为0,因 此有： 


n 

= 0 [3. 14] 

i=l 

方程 3. 14有许多解法，其中最直接、最简单的要数用迭代法对均值再加权， 
其过 程为： 

首先，定义权方程 o ;( E ) =0( E )/ E ， 那么，估计方程 变为： 

n 

A) ⑴，=0 [3. 15] 

i=l 

其中， 

COi = Ci)(Xi — fi ) 


方程 3. 15 的解是加权后的均值 ，为: 




加权函数对应的最小二乘丄 AV 、 Huber 以及双权目标函数请参见表 3. 1和图 
3. 24。最小二乘权函数对每个观测都加了权，同时，双权对充分异常的数值赋 


予 0 值， LAV 和 Huber 不断趋近于 0 却无法达到 0 。 

表 3.1 —些 M 估计量的权重函数 


目标函数〆 £) 

权重函数 

最小二乘 

1 

最小绝对值 

1/1 E| (E^O) 

Huber 

1 (£<々） 
k /\ E \ ( E > k ) 

双权 

[ i-(f )7 (㈤ <々） 


0 ( E > k ) 
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其次，选择的初始估计，如 X 取值的中位数。[ 49 ]用^⑹计算尺度 s (w 的 
初始估计和初始权重 oT =0>( X ,-^ <0, ) 0 同时，设置迭代计数初始值/ = 0。尺 
度所需的细调常数为 k = cS (之前已经指定过 c ) 。 

最后，对于每个迭代计数/，计算当从一个迭 
代到另一个迭代的# m 可忽略不计时，计算停止。 

⑴ I . S ( E ) ^ lav ( E ) 



( c ) ( d ) 

注 :对于 Huber 和双权估计值，细调常数设定为 々=1。 注意， LAV 估计量的纵坐标和 Hubei •估计量的 
横坐标与其他图不同。 

图 3.24 ( a ) 最小 二乘； （ b ) 最小绝 对值； （ C ) H U ber ; ( d ) 双权估计置的权函数 o >( E ) 


描述有关估计量的应用，我们首先要回顾一下之前所提到的从标准正态分 
布 N (0, 1) 得来的含有6个观测值的样本(请见方程 3. 13), 我们先在该样本中 
制造一个异常值 X 7 = 10。用 Huber 估计量 c = 1. 345和双权估计量 c = 4. 685, 
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得到： 

X = 1. 298， median ( X ) = 0. 013 ，/2 H = 0. 201, m = — 0. 161 
很明显，样本均值已经被异常值所影响，但是其他估计量却没有。 


最大似然估计 


最大似然估计方法所提供的估计量是一个合理而直观的基础，它同时含有 
众多我们所期望的统计属性。该方法应用广泛且简单易行。再则，运用最大似 
然估计量，它的一般性理论所提供的相应的标准误和统计检验等都是有用的统 
计推论。然而该方法的劣势在于，它往往需要对数据结构作出较强的假定。 

似然函数不仅在经典统计推论中扮演着至关重要的角色，还在贝叶斯推断 
中起着举足轻重的作用。 


一个例子 

让我们考虑一个简单的例子 :假设 我们要估计掷硬币得到正面的概率 7 T 。 
我们投掷10次(例如，我们取10次掷硬币的结果，《= 10)，得到的结 果为: 
HHTHHHTTHH 。 那么，得到这个结果的概率是未知参数; r 的 函数： 

Pr (数据丨参数）= PrCHHTHHHTTHH | 

= ror(l — 7r)7t7i7r(l — 7r)(l — jr)mr 
= 7r' ( 1 一 7r) 3 

对于10个独立的伯努利随机变量，得到该结果的概率就是每次得到正面或者反 
面的概率乘积(如果得到的是正面，那么， X , = 1, 反之 X, = 0, Z = 1 … 10)。 

对于我们的样本，其数据是固定的，因为我们之前已经收集好了。参数;^也 
有一个固定值，但是这个值是未知的，因此我们让其落在我们所想象的0到1的 
区间内，把观测到数据的概率看做 7 T 的函数。该函数为“似然函 数”： 


L (数据 I 参数）= Un I HHTHHHTTHH ) 

= 7T ? ( 1 一 
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概率函数和似然函数的公式相同，但是概率函数是参数固定的数据函数，而似 
然函数是数据固定的参数函数。 

下表是一些具有代表性的似然值所对应的; r 值。 


7T 

L ( tT | 数据） = 7T 7 ( 1 — 7T) 3 

0.0 

0.0 

0. 1 

0. 0000000729 

0.2 

0. 00000655 

0. 3 

0. 0000750 

0.4 

0. 000354 

0.5 

0. 000977 

0. 6 

0. 00179 

0.7 

()• 00222 

0.8 

0. 00168 

0. 9 

0. 000478 

1.0 

0. 0 


图 3. 25为总似然函数。尽管每个 L (； r | 数据)的值都是一个概念上的概率， 
但是 U ； r | 数据)函数既不是一个概率分布，也不是一个密度函数，因为其总和并 
不为1。 



0.0 0.2 0.4 0.6 允 0.8 1.0 


图 3.25 似然函数 L (; r |/ ffrn / HH 7 TWH )=? r 7 (1—兀) 3 


对于此例，不论 7 T 的真实值有多大，我们已有数据样本 ( f / HTHHHTTf / H ) 
的概率很小。除非样本很小，否则通常任何指定的样本结果(包括我们已知的) 
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在收集数据前得到的概率都是很小的。 

尽管如此，似然函数包含了有关未知参数 7 T 的重要信息。例如 ,7 T 不可能等 
于0或者1，因为如果它为其中任意一个值，那么，我们的观测数据(包括得到硬 
币的正反面)就不可能得到。反之， 7 T 值总是由数据决定，它总可以使似然函数 
最大化，因此该值称为“最大似然估计” ( MLE )， 记做 G 。 在这里，^=0. 7,即得 
到硬币正面在样本中的比例。 

将例子推广化 

更普遍的情况是，我们掷硬币 n 次，那么得到工个正面和 n _: c 个反面的概 
率为： 

LU | 数据）= Pr (数据丨 ； r ) = #(1 — 7 T )- 

我们想得到一个&使 LGrl 数据)最大。对于此例，还有一个更简单而且等价的 
方法，即找到一个; r 值，使似然函数的对数最大化，这样，我 们有： 

log p L (7 r ) = xlog e 7 T + (n — x ) log f (1 — 7 r ) [3.16] 

log p L (? r ) 对 7 T 求导得： 

d \ og e L { n ) = ^ + (w — x) 

an k I 一 k 


7V 1 — 7T 

对数似然函数对参数求导后所得的函数称为“记分”(或者“记分函数”)。将记 
分设置为0求解; T ， 可以得到 MLE ， 解方程后我们发现， MLE 即样本比例: r /» 
(读者可以自己证明），最大似然估计量是 A = X / n 0 要避免最后阶段对估计量 
的替换，我们可以在对数似然函数中用 工代替 X ( 如方程 3. 16)。 


最大似然估计量 

最大似然估计量的性质 如下： 

(1) 最大似然估计量是一致的。 

(2) 最大似然估计量是渐近无偏的，尽管在有限样本里它可能有偏。 
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(3) 最大似然估计量是渐近有效的——渐近无偏估计量的渐近方差较大。 

(4) 最大似然估计量是正态分布的。 

(5) 如果一个参数含有充分统计量，那么，该参数的最大似然估计量是其充 
分统计量的函数。 

(6) 如果 S 是 a 的 MLE ， 且/? = / Xa ) 是 a 的函数，那么，/? = /(a ) 是乡的 
MLE 。 


(7) 参数 a 的 MLES 的渐近抽样方差可以从对数似然函数的二阶导数中 
求得： 


以） 


E 

~ d 2 log e L(a)" 


L da 2 」 


[3. 17] 


) 的分母称为“期望信息”或者 “ Fisher 信息”[ 51 ]: 


1( a ) 


d 2 \og e L ( a )" 

E l ~ d? ~ 」 


我们将 MLES 代入方程 3. 17,可以得到渐近抽样方差的估计 G G ) 。[ 52 ] 

(8) LO 是似然函数在 MLES 上的值，此时， L ( a ) 对于真（但往往是未知 
的)参数 a 是一个似然函数。那么，其对数似然比率统计量 


G 2 = 2 log , = 2 [ log , L(a ) — log , L ( a )] 


遵循自由度为 1 的渐近卡方分布。因为通过定义， MLE 在我们特定的样本中最 
大化了似然函数，那么在真参数值 a 下的似然函数值通常比在 MLES 下的小 
(除非^和<?碰巧相等）。 

如何构建这些结果超出了本章的范围，然而这些结果的确可以给我们带来 
一些直观的感觉。例如，如果对数似然函数有一个尖锐的峰，那么很明显 ， MLE 
是由其临近值求导得来的。在这种情况下，其二阶导数是一个较大的负数。我 
们可以发现，数据里隐藏了许多有关参数值的“信息”, MLE 的抽样方差比较 
小，等等。相反，如果对数似然函数在其最大值上表现得比较平坦，那么与 MLE 
差异很大的可替换估计可能和 MLE —样好用。这样的话，数据中就很难发现 
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有关参数值的“信息”，同时， MLE 的抽样方差也很大(见图 3. 26)。 



注：一 个为尖锐峰，提供可信度高的参数 a 信息；另一个为平坦峰.提供的参数 a 信息可信度低。 

图 3. 26两个对数似然函数 


统计 推论: Wald 检验、似然率检验与记分检验 

前面介绍的有关最大似然估计量的属性，直接引出了用来检验假设 H 。 ： 
a = «。的3个常用统 计量: Wald 检验、似然率检验和记分检验。记分检验有时 
称为“拉格朗日乘数检验”。 Wald 检验和似然率检验可以用来产生 a 的置信 
区间。 

(1) Wald 检验 :根据 MLES 的渐近正态性，我们可以计算检验统计量 



它在 H 。 下是以 N (0, 1) 渐近分布的。 

(2) 似然率检验 :运用 对数似然率后，检验统计量 变为： 

T ( C ) 

Go = 2 log , ° = 2[ log , L (^ ) — log , L ( a 0 )] 

1^\(Xq ) 

它在 H 。 下是以; d 渐近分布的。 

(3) 记分检 验:我 们知道 S ( a )^ dog P L ( a )/ 也是对数似然函数在《时的斜 
率。在 MLE 时，记分为 0: S (&) =0。那么，记分统计量的表达 式为： 
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su> 

■/Tiaa) 


它在 h 。 下是以 mo , 1) 渐近分布的。 

尽管这3个检验是渐近等价的，但是除非对数似然函数是二次型的，否则3 
个检验统计量对同一个指定样本所得到的结果会有些许不同。在特定情况下， 
记分检验的实际优势在于，其不需要计算 MLES (因为 S 。 只依赖于空值《。，它 
已经由 H 。 指定）。在大多数小样本量的情况下，似然率检验比 Wald 检验和记 
分检验更可靠。 

图 3. 27描述了 3种检验之间的关系，并阐明了每个检验的理性直觉。 
Wald 检验度量了 S 与之间的距离，并用标准误校准了该 距离。 如果 《离 
«o 较远，那么我们可能要质疑一下 H 。。 似然率检验度量了 bg,L( ^ ) 与 log,L 
U) 之间的距离，如果 log e L( f) 比 log e LU) 大得多，那么可能出错了。记 
分检验的统计量度量了对数似然函数在时的斜率，如果该斜率很陡，那么，可 
能离似然函数的峰值较远，此时，我们仍然要质疑 H 。。 


似然率检验 



注:似 然率检验将 ) 与 log , LU) 比较； Wald 检验将与比较；记分检验检验 a = a 。时 
logJ -( a > 的斜率。 

图 3. 27假设检验 : a = a 0 

相关说明 

现在我们要把这些结果运用到之前的例子中，即在《次掷硬币中得到正面 
的概率^之前提到， tt 的 MLE 就是样本比例 G = X / n ， 其中， X 记录了样本中 
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岀现正面的次数，对数似然函数的二阶求导(方程 3. 16) 为: 


d 2 log e LU ) = _X 
dn 2 — 7 T 2 


n-X 

(1 — 7 r ) 2 


(- 1 ) 


_ — X ~h 2 kX — me 2 
7 T Z a - K ) 2 


注意， E ( X )= nn , 那么期望信 息为: 


IU )= = ― — 

一 7T 2 (1—JT) 2 7r(l —n-) 

^ 的渐近方差为 = [7(^)]-* =^( l -^)/«, 与期望信息相似。对于此例， 
渐近方差恰好 就是& 的有限样本方差，其估计渐近抽样方差是 0(^) = ^(1- 

7r)/«o 

在我们的样本中，掷硬币次数 n = 10,得到7次正面的渐近抽样方差为 
D (^) =(0. 7 X 0. 3)/10 = 0. 0210,根据 Wald 检验的95%渐近置信区 间为： 


7 T = 0. 7 士 1. 96 X /0. 02010 = 0. 7 士 0. 284 

其中，在双尾检验中， 1. 96为右侧尾部概率是 0. 025的标准正态分布值。我们 
还可以用 Wald 检验统计量来计算。假设 H 。 : tt = 0. 5, 

ry 0.7 — 0.5 loo 
Zo = — —■ = 1. 38 

VO. 02010 

其所对应的 N (0, 1) 双尾 p 值为 0. 168。 

我们知道，对数似然函数为： 

log e _L(7T) = X\og e 7T + (72 — X)log r (l — 7T) 

= 7 log ,. 7 T + 3 log ,. (1 — 7 r ) 

代入具体数值后， 得到： 

log g L (7 r ) = 7 log , L (0. 7) +3 log e L (0. 3) =— 6. 1086 


log ^ L (7 T 0 ) = 7 log e L (0. 5) + 3 log ? L (0. 5) =— 6. 9315 
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因此，的似然率检验统计 量为： 

Gl = 2[- 6. 1086 — (—6. 9315)] = 1. 646 

其所对应的/>值(从; d 分布得到)为 0. 199。 

最后，对于记分检验， 


那么， 


S (； r ) 


d\og e L{n) 

dn 


X n-X 

7T 1 _ K 


SU) = o ^ _ o ^ 


其在; r 。 时的期望信 息为: 


K7ro) = /(a5) = 0.5 X 0.5 = 40 


因此记分统计 量为: 


So = 


VI (n 0 ) 


~^= = 1. 265 
v^40 


其对应的 N (0, 1) 双尾检验的值为 0. 206。 

这3个检验结果都比较一致且合理，然而却都不太准确。通过用 X 的零二 
项分布的精确检验(出现正面的数目 ） ，得 到： 



10、 


10' 


pU ) = 


0. 5 X 0. 5 1( ^ x = 


0. 5 I( 


U J 


、工， 



其产生的双尾检验的值为 0. 3 4 38。从这个例子中得到的经验是，在小样本量 
数据中应用渐近结果时一定要小心。 


相关参数 


最大似然方法可以推及含有多个参数的线性联立方程中，让 〆X | a ) 表 

(nXm) aXl) 

示》个可能的多元观测 X ( m>l ) 的概率或者概率密度，这些多元观测和 々个 
独立参数 a 有关。[ 53 ] 
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似然函数 L ( a ) = L(a I X )是 a 的函数，此时要寻找一个6使得函数最大。 
与之前相同，我们用 log , L ( a ) 代替 L ( oO 。 要最大化似然函数，我们要先计算岀 
向量偏导 dbg ,. L ( a ) 并使其为0,然后来解矩阵方程求6。如果解方程结果 
发现有不止一个根，这时，我们就要选那个可以产生最大似然值的根。 

与单个参数的例子一样，基于充分统计量的条件.最大似然估计量是一致、 
渐近无偏、渐近有效且为渐近正态分布的。 MLE 的渐近方 差一协 方差矩 阵为： 


" ( 二〕 


-E 


、 7 2 log f L(a) 

3a^a 


[3. 18] 


方程 3. 18中括号里的矩阵称为 “/(<*)” (不要和单位矩阵 I 混淆）。另外，如果 
夕= /( a )， 那么 / S 的 MLE 为^ = /(2)„注意类比多参数方程和单一参数 
方程。 

以下为记分检验和 Wald 检验的推广。的 Wald 统计董在^ = a 。 时为： 
= (a ■— a 0 )'u (a ) _1 (a — a < i ) 


记分向量为 S ( a ) = r ^ log , L ( a )/^) a . 那么记分统计 量为: 

So = SCao )'/ ( a ,) 一 
似然率检验可以直接推 广为： 


Go = 2 log. 


L(q)~ 

LCa.)- 


这 3 个检验统计量都在 H 。 下遵循渐近分布(如;^)。 

每种检验都应该适应相对更复杂的假设。例如，我们想检验假设 H 。， 其 a 
中々个元素的/>和某个特定值相等。我们让 L (£ i 。） 代表在某些假设限制下的 
最大似然函数(例如，设一系列参数 p 与某假设的一系列数值相等，但其他的参 
数可任意估 计）； 表示放开限制后整体的最大似然函数。那么在假 
设下， 


a 


21og r 


~ L ( q )- 
丄 （ a ,)_ 
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它是自由度为 P 的渐近卡方分布。 

下一个例子 ( Theil ， 1971： 389— 390) 阐明了以下结果 :对于 一个从均值为 
"、方差为/的正态分布得来的〃个独立观测样本 X ,，我们想估计"和已 
知似然函 数为： 


Lifij cr 2 ) = JJ 


-exp 


(U 

2 W 


( 27 kt ) _M/ exp 


2^2 (兄 -") 2 


那么，其对数似然函 数为: 


logfL(" ， CT 2 )= —号 logf 〜一号 loga 2 — 2^2 (Xi — JLt ) 2 


其偏 导为： 


cl \ og e L ( jU , o 2 ) 

logg _ L (/^ a 2 ) _ 
do 1 


tS ( X , -") 




2 o ^2 a ' 


2 ( X , —") 2 


令偏导等于0,求得…/的估计量分 别为: 






2 ( X , - X ) 2 


对数似然函数的二阶偏导矩 阵为: 


<9 2 log〆 L 

d 1 log ,, L 


_ n _ 

V 



G 1 

c ) 2 log ^ L 

a 2 log , L 


-含 E(x, 

_ 而 2 3" 

3 ( ff 2 ) 2 」 



— (久,_ 一户） 

壺—長 S(x,— ") 2 


取期望值会得到期望信息矩阵的负阵，注意， E ( X ,- l u )= 0 , E ( X ,- f ,) 2 = a 2 , 
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/("， （ T 2 ) 


n 

(7 2 


n 

u . 


我们知道，最大似然估计量的渐近方差一协方差矩阵即其信息矩阵的 逆阵: 


V 

， $ 2 ) = [ iX "， a 2 )] -1 — 

0 


0 

U _ 

n - 


=X 的抽样方差为 Gr 2 Ai )。/ 的 MLE 虽然有偏，但却是一致的（即方程 3. 12 
中的估计量 S 2 *)。 

在许多应用中，数据包含了一个含有〃个同分布观测的独立随机样本。数 
据整体的似然函数为所有观测的似然函数乘积 L ( a )， 那么数据整体的对数似 
然函数则为所有观测的对数似然函数 之和： 

n 

logeL(a) = y] log g L t (q) 

«=i 

因此，记分函数为逐个观测相关项 之和： 

S («) = ± s { ( a ) = t 3logf , L ' (a) 

最后，样本信息是一个个体观测中所包含的 „ 倍信息(记做 ) : 

Ka) = £/,(«) =4^^1 

ti L 3a3a 」 

结果之所以如此，是因为似然函数的二阶导数对《个观测都是相同的。 


Delta 算法 


如前所述，假如 y 3=/( a )， 且 S 为 a 的最大似然估计量，那么，身 = fia ) 
为/?的最大似然估计量。这意味着身是渐近正态分布的，且其渐近期望值为 
存，即 使函数 /( •) 是非线性的。 
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利用 / G ) 泰勒展式估计在 《 处一阶展开， Delta 算法产生了一个 g 渐近方 
差的 估计： 

P = /(^) ^/( a )+/ / ( a )( a ~ a ) [3. 19] 

其中， f \ a ) = df { a)/da 为 /( a ) 对 a 的求导。 

方程 3. 19 右边的 /( a ) 是一个常数（因为参数 a 是定值），第二项是关于 S 
的线性函数，由于 a 为定值，因此 /'(«) 为常数，所以， 



其中，为^的渐近方差。在实际应用中，我们用最大似然估计量 S 代替 
a ， 进而获得冷的渐近方差估 计值： 



为了解释 Delta 算法的应用，让我们先回顾一些概念，样本配比 A 为总体配 
比； r 的最大似然估计量，其渐近（实际上是有限样本）方差为= ^(1- 
； r )/„， 其中,„为样本大小。对数优比或者 logit 的定 义为： 

A = /(? r ) = log , 

A 的最大似然估计量为 A = log e [^/( l -?)], logit 样本的样本渐近方 差为： 

y ( A ) ^ [/’(7 r)] 2 tX 夯） 

_ 1 2 丌(1 — ; r ) 

_7T(1 一 TT )」 TZ 


Wt(l — 7r) 

最后， logit 样本的样本方差渐近估计值为 5( a ) = l /[ w ( l -^)] 0 

Delta 算法可以直接扩展到具有多个参数的函数中。假设/?= /( ai , 
« 2 ，…，的）=/(«)，且 S 为《的最大似然估计量，其渐近方差为那么， 



130 


社会科学中的数理基础及应用 


^ =/(<?) 的渐近方 差为： 

^(/3 ) ^ [ g ( a )] y ( a ) g ( a > = X X 

其中， g ( a ) = 9^ /^ a , %为 S ) 的第 f 行第 j 列元素。戶的估计渐近方差为： 
。⑷= _ g ( a )] y ( a ) g ( a ) 

Delta 算法不仅适用于最大似然函数的估计量，而且适用于其他渐近正态 
分布的估计量。 

贝叶斯推断 

本章节引入另外一种统计推断，即贝叶斯推断。这里主要解释贝叶斯推断 
的核心思想，细节的部分将会被省去。 

贝叶斯定理 

首先，我们来回顾条件概率的定义。已知事件 S 会发生， A 发生的概 率为： 
Pr(A I B) = [3. 20] 

同样， B 关于 A 的条件概 率为： 

Pr(B I A) = Pr ( p f(jj) B ) [3. 21] 

将方程 3. 21 进行变换，得到 A 和 B 的联合 概率： 

Pr(A 门 B) = Pr(B | A)Pr(A) 

并将其代人方程 3. 20,可得到贝叶斯 定理： 


Pr(A I B ) 


JPrCBj A ) Pr ( A ) 
Pr ( B ) 


[3. 22] 
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贝叶斯定理是以18世纪英国数学家托马斯 • 贝叶斯 (Thomas Bayes ) 命名的。 

贝叶斯统计推断是基于方程 3. 22的推断。让 A 代表某未知命题，我们想 
弄清楚其正确与否(例如这样一个命题 :一个 参数等于某特定值） 。让 B 代表与 
真命题相关的观测数据。无条件概率 PKA) 为 A 的先验概率，它是在获得数据 
之前，我们确信 A 为真的 概率; Pr(B|A) 是假设 A 为真时获得观测数据的概率, 
即给定 A 的似然度。数据 B 的无条件概 率为： 

Pr(B) = Pr(B | A)Pr(A)+Pr(B | A)Pr(A) 

那么，方程 3. 22 中的 PKA 1 B) 就是 A 的后验概率，表示获得数据 B 后所修正的 
A 为真的概率。 

贝叶斯推断是基于证据、检验先验的理性过程。主观论者和客观论者关于 
概率的理解是相反的。贝叶斯理论由初等概率理论发展而来，随后便引出了贝 
叶斯统计推断的一般过程。 

初步案例 

考虑如下的简单情况 :假设 你有两个“有偏差的”硬币，在抛掷过程中，其中 
一个得到正面的概率为 Pr(H) =0.3, 另一个为 Pr(H) = 0. 8 0 每个硬币都分 
别被装在盒子里，且在盒子上标明了它的偏差。但是你不小心把盒子都弄丢 
了，只好把硬币都放在抽屉里。一年后，你忘记了哪个硬币是哪个。为了区分 
它们，你随便挑了一个，然后抛了 10 下，得到结果为 HHTHHHTTHH —— 7 
次正面， 3 次反面。 

让事件 A 代表选取了硬币 Pr(H) = 0.3, 那么 A 为事件选取 Pr(H) = 
0. 8 。 在这种情况下，我们有理由选择先验概率 Pr(A) = Pr(A) = 0.5, 那么数 
据的似然 度为： 

Pr(B I A) = 0. 3 7 (1 —0. 3) 3 = 0. 0000750 

Pr(B I A) = 0. 8 7 (1 —0. 8) 3 = 0. 00 1 6 7 77 

请注意，常见观测数据的似然度在两种情况下都很小，但是 A 的情况更有可能。 
利用贝叶斯定理(方程 3. 22)，我们可得到后验 概率： 
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Pr(A | B ) 


_ 0. 0000750 X 0. 5 _ 

0. 0000750 X 0. 5 + 0. 0016777 X 0. 5 


= 0. 0428 


Pr(A I B )= 


_0. 0016777 X 0. 5 _ 

0. 0000750 X 0.5 + 0. 0016777 X 0. 5 


= 0. 9572 


此结果说明，所选的硬币为 Pr ( H ) =0.8 的概率比 Pr ( H ) = 0. 3的概率更大。 


贝叶斯定理扩展 


贝叶斯定理可以轻易地扩展到多于两个假设 A 和 A 的情况。比如有多个 
假设风，…，风，其先验概率分布为 Pr ( H ,), i = 1, •••, 々，且所有先验概 
率的和为1 [55] ;让0代表观测的数据，并有似然度 Pr ( D | H ,), i = 1，…， h 那 
么，假设的后验概 率为： 


Pr ( H , I D )= 


Pr(D I H ,) Pr (汗） 
S ; l , Pr(D I H ; ) Pr ( H ; ) 


[3. 23] 


方程 3. 23 的分母确保了在所有假设下，后验概率的和为1。有时候，为方 
便起见，我们可以省略这个标准化，将其简单表 示为： 


Pr ( H , I D ) oc Pr(D | H . OPrCH .) 


即一个假设的后验概率与该假设下的似然度和其先验概率的乘积成正比。如 
果有必要，我们可以除以 | H ,) Pr ( H ,) 来复原后验概率。 

贝叶斯定理对于随机变量同样适用。让 a 代表我们感兴趣的参数，它的先 
验概率分布或者密度为 P ( a ); 让 L («) = p(D I «) 表示参数 a 的似然函数，那 
么有： 


pda | D ) 


L(a)p(g) 

J^L(a)pCa) 

a\]a r 


其中， a 是离散的，或者 


p(a I D )= 


L(a)p(g) 

Lda^pda^da' 
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因为在更普遍的情况下，《是连续的。在两种条件下都有: 


p^a | D ) oc L ( a ) pia ) 


即后验分布或者密度与似然函数和先验概率(或者密度）的乘积成正比。跟前 
面一样，如果有需要，我们可以除以或者来复原 

alW J 

后验概率或者密度。 

有两点需要提及： 

首先，进行贝叶斯推断之前，我们要求参数 a 的先验分布 P ( a ) 是合理的。 
另外，与经典统计量相反，我们把 a 当做一个随机变量而不是未知常数，所 
以我们保留希腊字母。然而，由于与数据不同，参数永远不能确定——即使已 
经获得了数据。 

共扼先验 

当先验分布已经选定，且似然函数和先验概率的乘积所得到的后验分布与 
该先验分布属于同一个系列，此时贝叶斯推断的数学会变得很简单。我们把这 
种情况的先验分布叫做“共轭先验”。 

贝叶斯推断曾经只在共轭先验的情况下才有实用价值。然而，随着计算机 
软件和硬件的发展，通过随机取样，数学上难以解决的后验分布变为可能。比 
如马尔科夫链蒙特卡罗抽样 (Markov Chain Monte Carlo , MCMC ) 使得贝叶斯 
能广泛应用于统计学。但是不论怎样，先验分布的选择是非常重要的。 

贝叶斯推断的例子 


让我们继续之前的例子——掷硬币，我们想通过估计得到硬币正面的概率 
&但是在少量离散值中又无法限制; r 。 原则上，; r 可以为0到1之间的任意数 
值。要估计 7 T ， 需要收集10次独立投掷的数据。从之前的伯努利似然函数中， 
我们 知道： 


LU ) = n h ( l - K) 1 °- h [3.24] 

其中， / i 为观测到的出现硬币正面的次数。通过实验，我们得到数据 HHTH 
因此 ， h = 7„ 
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方程 3. 24伯努利似然函数的共轭先验即贝塔分布， 

pin ) = 广石?；二广 1 (0<; r<l 且 a ， 6>0) 

当贝塔先验与似然函数相乘后，我们得到了一个后验密度 形式： 
pin I D) cc tt 奸 0-1 (1 — = 7r 6+ °(l — tt) 2+ * 

即贝塔分布的形状参数为 A +« = 7+ a , 10- h + b = 3 + 6。在效果上，先验概 
率在似然函数里将 a 和6分别加到了出现正面和反面的次数中。 

那么我们应该如何选择《和6呢？方法之一可以反映你对似然值 ; r 的主观 
估计。例如，如果一个硬币本身没有问题，那么 tt 的值会很接近0.5。假设取 
a = b = 16, 那么， tt 就会被限制在 0. 3到 0. 7的区间内（见图 3. 15)。如果对该 
限制不太满意，对于 a 和我们可以取小一点的值。当 u = 6 = 1 时，; r 的所有 
值都可能相等，这就是所谓的“扁平先验分布”，它完全忽略了 tt 值。[ 56 ] 

图 3. 28描述了 ； r 在两种先验下的后验分布。在扁平先验下，后验和似然函 
数成正比，因此，如果我们取后验的众数 作为； r 的估计，那么就会得到 MLEA = 
0. 7。[ 57 ]相反，对于 a = 6 = 16这个信息先验，其众数在 7 T 〜 0. 55，它和 ；r = 0. 5 
的先验分布的众数非常接近。 

令人不安的是，该结论要取决于关键的先验分布，但这个结果_是在少量 
的样本下得到的。我们知道，在这种情况下用贝塔先验如同在数据中又增添了 
a +6 个观测。随着样本量的增加，似然函数开始占领后验分布，先验分布逐渐 
被掩盖。对于此例，如果掷《次硬币，其后验分布的形式 变为： 

pin I D) oc (1 — 丌 )“+^ 

得到的 A 个正面和 n — / i 个反面的数目都会随着掷币次数的增加而增加。直觉 
告诉我们，从先验来说，样本量小时所要考虑的加权要比样本量大的时候大 
得多。 


贝叶斯区间估计 


在经典统计推理中，我们期望得到的不仅是参数的一个点估计，还要检验 
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估计中的不确定性。参数的后验分布直接表示了统计不确定性。通过后验分 
布，我们可以进行多种贝叶斯区间估计,这些区间估计均可以用来和经典置信 
区间进行对比。 

一个简单的选择是中央后验 区间： 总共含 100 a 百分比的中央后验区间为从 
(1 一 a )/2 到 （ l + a )/2 的分位数。与以解释复杂而著名的经典置信区间不同，贝 
叶斯后验区间的解释很 简单: 概率是 0. 95表示其参数落在95%的置信区间内。 
该差别反映了贝叶斯参数解释是把参数当做一个随机变量，对数据进行观测 
后，其通过后验分布表达了对参数值的主观不确定。 

两个后验分布的95%中央后验区间可从图 3. 28中看出。 



0. 0 0. 2 0. 4 0. 6 0. 8 1.0 

7T 

注 : a = :！， 6=1是扁平的贝塔先验 ；a = 16, 6=16是信息贝塔先验。其中，在10次掷币中包含7次 
正面。两个靠近图底部的水平线分别展示了相应先验的95%中央后验区间。 

图 3. 28在两个先验分布下得到正面概率 jt 的后验分布 

贝叶斯参数推理 

贝叶斯推理可以直接延伸到对一系列参数 a = [ a ,, aj 的同时估 

计中。在这种情况下，有必要指定参数的联合先验分布 〆 <*)和联合似然估计 
L ( a )。 那么，对于只有单一参数的情况，联合后验分布与先验分布和似然估计 
的乘积成 正比： 


p(a I D ) oc p ( a ) L ( a ) 
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该推理主要关注每个参数的边缘后验分布 〆 a , I D ) 。 

推荐阅读 

大多数介绍性的数理统计和计量经济课本都会涵盖本章所提及的各个主 
题，且其描述更为正式和详尽。如考克斯 (Cox) 和欣克利 （ Hinkley)(1974) 的著 
作，相对于本书，其涉及的知识较难。还有策尔纳 （ Zell ner )(1983) 的著作，其结 
构紧凑，与考克斯 (Cox) 和欣克利 （ Hinkley) (1974) 的书相比，较为简单。旺纳 
科特兄弟的 （Wonnnacott Wonnnacott, 1990) 著作用相对简单的数学知识对 
本章涉及的话题进行了深刻诠释。如果你觉得本章相关章节过于精炼且缺少细 
节，那么我认为这本书无疑是一本非常合适的书籍。同时，关于渐近分布理论还 
有泰尔 (Thdl)(1971) 的著作。关于 Wald 检验、似然率和记分检验还可参看英 
格尔 （ Engle)(1984) 的著作。最后，对于贝叶斯推理的相关内容，兰开斯特 (Lan¬ 
caster) (2004) 的书确 实是一本经典之作。 



第 4 章 I 实际 应用： 线性最小二乘法回归 


这本书的重点在于介绍社会统计学的数学方法，而不在于统计方法本身。 
不过，我还是觉得有必要介绍如何将数学应用到统计学方法中。所以，本章的 
目的是阐述线性最小二乘法回归这一统计方法的发展过程——-个读者所熟 
悉的话题以及由此推衍的相关特性。 

首先，本章将描述最小二乘法的数学性质，但是这只是统计学的一部分。 
虽然数学在应用统计学中扮演了重要的角色，但是应用统计学不全是数学，其 
范围更广，例如，有关方法论的话题。此外，线性最小二乘回归在几个方面代表 
了应用统计学的核心方法，且在统计学中经常用到，它容易扩展到一般线性模 
型、广义线性模型和其他模型，并为其他统计模型提供了运算基础。最后，对于 
线性最小二乘法回归在数据分析中所扮演的角色，需要更深人的探讨。因此， 
我认为这是一本有关应用回归分析比较合适的教材 ( Fox ， 2008)。 

本章将把前面几章所学的内容应用到统计方法 中:第 1章的矩阵和线性代 
数，包括矩阵秩和线性联立 模型; 第2章中最优化问题所用到的矩阵微 积分; 第 
3章的概率论、统计分布、估计量性质和最大似然法估计。 

最小二乘法拟合 

一个线性回归方程可以 写成： 

Y , = A + Bijc,i + B 2 x a +- h BkXji , + E , [4. 1] 

其中， y , 是《个观测中的第纟个定量响 应变童 (或者“因变量 ”）; A ， _ r, 2 ，…， A 
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为第 i 个观测的々个定量解释变量(或者“自变量”）；九 B lf B 2 , ■■■, B k 为回归 
系数， A 为回归所得的截距或者 常数; 系数战心=1，2, … ，幻为分项斜率系 
数为回归残差，表示偏离线性回归面的程度。 

Y ； = A + B]X,i + Bzx a + h 

其中，^为第观测的拟合值。 

注意，上例中我们用了大写字母和£,，这表明，如果我们所选择的 ( 含有 
n 个观测的)样本不同，因变量的值就会改变，残差也会改变。因此，和艮是 
随机变量。同样，因为回归系数随着样本的改变而改变,所以它们也用大写字 
母表示。相反，我用小写字母表示解释变量，表明在重复抽样中，它们的值是固 
定的，这是典型的实验设计,因为所有自变量工都是由研究者直接控制的，在重 
复实验中不会改变。把所有自变量当做定值会使数学变得简单，同样也会使之 
变得不太重要(但不是绝对不重要）。在下文中，我会简要地对一系列随机变量 
X进行介绍。 

我们将最小二乘法回归系数(即 A 和 B 的那些可以使残差平方和最小的取 
值)看做一个回归系数的函数， 则有： 


S(A, B ,, B k )= 左拉 = t ^ CY .- Y ,) 2 

» = 1 i = l 

= 2 (Yi —A — Bixn - - B k Xik) 2 

i=i 


虽然我们可以继续用标量形式，但是矩阵形式更有优势。我们可以把方程 
4. 1改 写成： 


其中，尸 [Y” Y 2 , 


(w^l) 


X b + e 

(nX/fe+lX^+lXl) (nXl) 


•，l：T 是一组观测的因变量向量， 


x ： 


1 -Tn … Xi k ~ 

1 X 2 i … X 2 k 

1 X„i … x rk _ 
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为模型(设计)矩阵，它包含了解释变量及首列为1的回归常数(常数回归因子）; 
b =[ A , 压 T 包含了回归 系数； £ 2 ，…，瓦]/为一个残差向 

量。那么，残差平方 和为： 


S ( b ) = e’e 

= (y — Xb )'( y - Xb ) 

= y'y — y Xb — b ' X'y + b ' X’Xb 
= y'y —2 y’Xb + b ’ X’Xb 


[4. 2] 


由于 y ' Xb 为 （1 X 1)， 因此它和其转置 b ' X ' y 相等。 

为最小化残差平方和 S ( b )， 我们可以对回归系数 b 求导，将方程 4. 2代人 
可得： 

= 0 — 2 X'y + 2 X'Xb 


使之为0并移项，可得线性最小二乘法回归的正态 方程: 


XX b = 

Ct+lX*+l)(*+lXl> 




这是一个拥有々+1个线性等式和 A +1 个未知回归系数 b 的系统方程。该系统 


方程的系数矩 阵为: 



n 

2工,1 

2^*2 … 

2 ^ 




2 1,11,2 … 

^jJCaXik 

XX = 

2 X ''2 

^Xi2Xn 

2^2 

OCiiXik 


L2 


^jJCikX i2 … 

24 


它包含了平方和及模型矩阵的列的交叉乘积。方程右边的向量， x'y = 
[乙1，2>.上，，…，2办1]'，包含了模型矩阵每一列交叉乘积 
的和以及因变量向量。平方和及乘积 X 、和 X ' y 可以由数据直接计算得到。 

XX 是满秩的，即非奇异的，假如模型矩阵 X 是列满秩6+1，则没有一个自 
变量是其他自变量的完美线性函数。在这些条件下，正态方程有唯 一解： 
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b =( X ' X )-' X'y [4.3] 

这是 S ( b ) 的一个最小值，因为 X ' X 是非奇异且正定的。 

一个线性回归的统计模型 

一个常用的线性回归统计模 型为： 

Y, = a + ^1 J：,1 -\- +- VPkXik +£i 

其中， y , 为》个样本观测中的第；个响 应值; x , 2 ，…，个解释 变量; 
a , A ， 译，…， / i 为总体回归系数，它是从样本数据中估算得 来的; e , 为第 z 个 
观测的误差变量。即使误差不是随机变量，我们还是用希腊字母表示，因为它 
不能直接观测。我们假设误差是正态分布的，且其均值为0,方差为常数 ff 2 , e , 
〜 mo , C 7 2 )， 不同观测的误差是相互独立的。 

最后，将线性方程写成矩阵 形式： 

y = X p + e [4.4] 

(« X 1) (« Xi !!+ l )( i - FlXl ) ( nXl ) 

其中， y 为因变量， X 为模型矩阵， / J = [ a ， 负，译 ，…， A ]' 为总体回归系数向 
量三 [ ei ， e 2 , …， e „]' 为误差向量。误差向量是具有纯量协方差矩阵的多 
元正态分布向量， e 〜 iV „(0, a 2 I „) a 请注意，由于它们是独立的，所以不同的误 
差是不相关的。 [59] 

因变量 y 的回归遵循 s 的回 归： 

= E ( y ) = E(Xp + s) 

=Xp + E(s) = Xp 
V ( y ) = E[(y —— 鮮)’] 

= El(\p + £ - Xp)(Xp + s - Xpy ^ 

== (/l, 


y 〜 NAXfi， a 2 IJ 
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因此，假设 E ( e ) = 0，那么 £( y ) 是 X 的线性函数。 

作为估计量的最小二乘法系数 

方程 4. 3 的最小二乘法回归系数 b 可能可以用来估计方程 4. 4 的线性回归 
模型的系数。由于 b 是由因变量 y 经过线性变换得来的，因此，最小二乘估计量 
的性质可以简单表 现为： 

b = (X’Xr'X’y = My 

其中，变换矩阵 M = ( X ' X 广 1 因为模型矩阵 X 对于重复抽样是固定的，所以 

M 亦如此。那么， 

E ( b ) = M £ Xy ) = ( X ' Xy ' X'Xfi = p 

因此可证明， b 为/?的无偏估计量。请注意，该结论取决于假设 £：(_ y ) = X/J (即 
线性假设）。 

b 的协方差矩阵可从常数误差方差和误差不相关，即 V ( y ) = ff 2 I „ 的假设 
得来： 

V ( b ) = MV ( y ) M ， 

=[(x'x) wuwx)-n 

= ct 2 (X ， X)- 1 X ， X(X ， X)-' 

= ( ^(x , xr' 

最后，根据误差正态分布假设，我 们有： 

b 〜 ( AX ’ X )- 1 ] [4. 5] 

最小二乘法估计量 b 不仅仅是的一个无偏估计量，而且在线性、常误差方 
差和独立性假设下，是数据线性函数的一个最小方差无偏估计量。该结果称为 
“ 高斯 - 马尔科夫定理” ( Gauss-Markov Theorem ) ， 常用来支持最小二乘法估计， 
但是不太支持最小二乘法估计量。当误差分布为非正态时，数据的其他非线性 
无偏估计量(所谓的稳健性回归估计量）比最小二乘估计量更为有效。但是，当 
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误差是正态分布的时候,最小二乘法估计量将是所有无偏估计量中最有效、最 

可信的。 [6() ] 

回归模型的统计推断 

有关总体回归系数的统计推断,除了点估计外，都很复杂，因为我们基本 
上不知道误差 方差^ ，所以不能直接将方程 4. 5用于 b 的最小二乘估计量的分 
布。我们必须先估计 C 7 2 。 

< T 2 的一个无偏估计 量为： 


7 ee 

一 n- 々一 l 一 n-k-l 

其中 ， n — 々一 1为误差的自由度(估计的々+1个元素时，“损失”了 A + 1 个自 
由度）。那么，估计的最小二乘协方差矩 阵为： 

v(b)s 2 = s 2 (x'xr 1 

b 的对角元平方根为回归系数的标 准差: SfXA )， S £ (战） ，…， SE ( B k )„ 

个体回归系数的推断是建立在《分布上的。例如，检验零假设 H 。 ： 戽= 
即斜率系数等于一个特定值皮“（一般为 0) ，我们可以计算检验统计量： 

, = B i —广 
0 _ SE ( B 》 

它在零假设下是以分布的。同样，建立一个戽的95%的置信区间,我们取 

= Bj i t r k~i, o. 025 SE(,Bj) 


其中山 4- U 0.025 是自由度为々_1、右侧尾部概率为 o . 025的临界值。 
在一般情况下，我们可以检验线性 假设： 

Ho : L p = c 

i XI) (qXl) 

其中， L 和 c 包含了特定的常数，且我们假设矩阵 L 是行满秩的那么， 
F 统计 量为： 
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厂 (Lb- c)’[L(X’X)— 1 L ’]— 1 (Lb- c) 

Fo = 衣 

如果 H 。 为真，那么，它遵循以 g 和》 — 々_ 1为自由度的 F 统计值。 

假设我们要检验一个包含两个解释变量的回归模型的“联立”零假设 H 。： 
A =A = 0,我们可以取 L = J 和 c = [0, 0]'。为了检验回6系数相 

等， Ho-.fi =绎（等价于 H 。: 岛一择 =0)，我们取 L =[0, 1， 一1] 和(；=[0]。[ 61 ] 
在下文，我们会提到在回归模型假设下，回归系数的最小二乘估计量等价 
于最大似然估计量。因此,当样本量够大，我们可以用 Delta 方法来推导回归系 
数的非线性函数的标准差。 

例如，考虑如下二项式回归 模型： 

Y = +/?ix 十体 x 2 +e [4.6] 

该模型可以用 Y 关于 x 和 x 2 的线性最小二乘法回归拟合，因为其系数呙 、译、 
A 是线性的。假设我们对回归方程达到最大值或最小值时的 x 值比较感兴 
趣 [62] ，对方程 4. 6两边取期望值，然后对 I 求导， 可得： 


dE(Y) 

dx 


=氏 + 2^2 X 


使之等于0,解方程，可得到函数为最小值(假如体是正的)或者最大值时(假如 
A 是负的)的 值： 


X = 


A. 

2体 


其为回归系数 A 、 A 的非线性函数。 

要运用 Delta 方法，我们需要/(谇，译）=-^/(2^>对回归系数求偏 
导数： 

iZ = 丄 
3 A 2鋒 


难 2廣 
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现在，我们要计算 A 、 A 的最小二乘法估计找 、压 及其方差 y (找 ） 和 y (压 ） ， 
还有它们的协方差亡（汉，氏）。我们知道， y 的最大似然法估计为 y = 
- B , / 2 B , ，那么，？的 Delta 方法方 差为： 

)4(払)(一去 ) 2 + VCB 2 ) (聂) + 26CB 】， B 2 )( -去 )( 亀） 

那么， y 的95%置信区间为夕±1.% 


回归模型的最大似然法估计 


如前文所述，在线性模型假设下， y 〜 N „( X / J ， a 2 I „) 0 所以，对于第；个观测， 
y ,~ jv „( x ：/ j , /)，其中，<为模型矩阵 X 的第 i 行。将其写成方程形式，可知第 z 
个观测的概率密 度为： 


p(yD 


: exp 


2 a 2 


a \ f^K 

由于 n 个观测是独立的，因此，它们的联合概率密度为其边缘密度的 乘积： 


p ( y ) 


■ y2jr) 


: exp 


2 ( 乂 — x ’iP) 2 
2 ? 


= ^^ exp [-^0^] [4 . 7] 

虽然这个方程同样遵循 y 的多元正态分布，但是从 Mx ) 到 P ( y ) 的推导过程有 
助于我们考虑随机回归元。 

从方程 4. 7中，我们可得对数似然 函数： 

log ,. L ( p , cr 2 )= —号 log e 2 k — log , a 1 —点 (y — X ^)’( y — X / J ) [4. 8] 

为了最大化似然函数，我们需要求方程 4. 8 对参数 / J ， ¥的偏导数。当我们注意 
到 (y — X / J )' (y — X / J ) 实际上是误差平方和时,求导过程会变得 简单： 
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alog f up , <12_ == _- i I (2 x , ^-2 X ， y ) 

(Jp Z(T 

31ogf 3^^ g2 ' =— 邓 ),( ，—冲） 

让偏导数等于 0 并解方程， 可得： 

P = (X’X)- 】 X'y 

八 2 — (y —Xg)，(y —Xg) _ ee 

0 = n —T 

最大似然法估计量#和最小二乘法估计量 b 是一致的。实际上，不需要正 
式的最大似然法，我们也可由方程 4. 7发现这个等价关系 ：当负 指数很小的时 
候，似然度会很大，且指数的分子中包含了误差平方和。因此，最小化残差平方 
和等价于最大化似然度。 

的最大似然估计量是有偏的，因此，我们会选择如前所述的类似且无偏 
的估计量 S 2 = e ' e /( n —々一 1)。然而，随着《的增大，<? 2 的偏差越来越趋近于0, 
作为一个最大似然法估计量， P 是一致的。 


随机矩阵应用 


本章中，我们进一步发展了线性回归分析理论，它不再局限于模型矩阵 X 
是固定的这一前提。如果重复一个研究，我们希望因变量 y 能变化，但是由于 x 
是固定的，那么在重复研究中，自变量的值为常数。这种情形描述了实验的真 
实情况，因为自变量是由研究者控制的。然而对于大多数的社会学研究，数据 
都是观测到而不是实验控制得来的。在一个观测研究中（例如，调查研究）.我 
们一般会在重复研究中得到不同的解释变量。所以，在观测研究中， x 是随机而 
非固定的。 

只要符合某些条件，线性回归统计学理论就同样适用于 x 是随机的情况。 
对于固定的自变量，其前提假设为 e 〜 N „(0, cr 2 I „)， 即所有模型矩阵的离散行的 
误差分布是相同的。当 X 为随机变量时，我们需要假设这个性质对于样本总体 
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中所有可能的自变量组合都成立，即假设 X 和 s 是独立的，那么，样本中取值为 
e I Xo 的自变量误差的条件分布为 N „(0, a 2 IJ , 不管选取的是哪个特定样本， 

Xo = {j^ij } o 

因为 X 是随机的，所以它存在一些(多元)概率分布。我们不需要对这些分 
布给定假设，但是我们有如下要求： （1) 对 X 的测定不存在误差，且 X 和 s 是独 
立的(如前所 述）； （2) 假设 X 的分布与模型回归参数/»、/ 无关; （3) 规定； S ： 的协 
方差矩阵是非奇异的（即在总体中没有 X 是不变的，或者说没有一个 X 是其他 
变量的完美线性函数）。我们不用假设回归元(和误差相比较)是正态分布的， 
这样会好很多，因为许多 X 是非正态的，如虚拟变量和多项式变量，还有其他许 
多定量解释变量。 [63] 

虽然没必要不断重复，但是我会指出随机解释变量在新假设下的一些关键 
结果。其他结果可以此类推。 

对于 X 值的一个特定样本\， y 的条件分 布为： 


E ( y | Xo )= E [( Xp + e )| Xo ] 

=X 0 p+Ei £ \X 0 l 


=\^P 

那么，最小二乘法估计量的条件期望均 值为： 

E ( b | X 0 )= E [( X / X )- 1 X , y | X 0 ] 

= ( X / 0 X 0 )- 1 X ； E [ y | X 0 ] 

= (X' 0 Xo) 一 1 X;X„/? 

=P 

因为这个过程可以对任意 X 进行重复，所以最小二乘估计量 b 对于任意该类值 
都是条件无偏的,它在无条件下也是无偏的， £( b ) = p a 

现在我们对0进行统计估计。具体来说，想象我们需要计算联合零假设 
Ho : A =…=体= 0的户值。因为当 X 为固定的时候 ， s | Xo 〜 N „(0, 
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对于 x = x « 的 P 值是正确的（即对于正在使用的样本）。然而，又没有什么特 
别之处，误差向量£是独立于 X 的，所以对于任意的 X ，£的分布都为 
iV ,,(0, <7 2 1„)。因此， P 值是无条件有效的。 

最后，我要指出，/>、/的最大似然估计量不会因 X 是随机的而改变，只要新 
的假设成立——当 X 为随机变量时，样本观测不仅包含因变量 ( K ，…， ) ，而 
且包含自变量(<，•••， O ; 我们可以把观测记为 [ K ， <]，•••， [ y „, x '„]。 由 
于这些观测是独立采样的，因此它们的概率密度为它们的边缘密度的 乘积： 


^( y , X ) = />([%， x ’ J ， …， [: y „， x ’„])= 々 (yi ， x ') X …X p ( y „, \„) 

第 H 欠观测的概率密度<)，可以写成 々( ylO〆〆 ）。 根据线性模型，给 
定 X :的： y , 的条件分布是正态的： 


p ( y , I X -) = 


■ \/2jt 


exp 


(■ y . 




那么，所有观测的联合概率密 度为: 


/>( y , X ) = JJp ( x ,) 

i=i 


\Z2tt 


exp 


2 a 2 」 


[ np ( x ',)_ 


{2m 2 Y n 


exp 


(y — Xg)'(y — Xg ) 

2« r 2 


= p ( X ) p(y I X ) 

只要 / KX ) 不再由参数 f ^决定，我们就可以在最大化 〆 y , X )的过程中，忽略 
X 的联合密度。最后，对于固定的 X ，最大似然估计量0与最小二乘法估计量 
一致。 
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注释 


[ 1 ] 我们可以为长方形矩阵定义一个广义的逆矩阵，但是对于方形矩阵，其逆矩阵不合常规。 

[ 2 ] det A 的另一种常用的替换表示法为 I A | 。 

[3] 在统计问题中应用几何向量，尽管在向量空间的维数通常与样本 M 〃相等，我们仍可以根据我们 
的兴趣将子空间限制到二维或者三维。 

[ 4 ] 矩阵 X ' X 的元为 < x , = x , • x , ，其中， x , 和\分别为矩阵 X 的第；列和第 j 列。类似地， X ' X 的 
第 z ' 个对角元为 x : x , = X , • X ,。 

[5] 按照常规，我们通常定义较小的角为两向量间的夹角（因此，该角度不可能大于180°)，记做切，那 
么较大的角则为 360_ w 。 由于 cos (360 — 加）= cos (^), 因此，这样定义不会引起歧义。 

[6] 不要把线性方程的几何表示与向量的几何表示混淆。 

[7] 有关术语的说 明：一 些作者不论方程组一致与否，或者系数矩阵的秩多少 ，一 概把“方程数目大于 
未知数”的方程组定义为“超定方程组”，把“方程数目小于未知数”的方程组定义为“欠定方程 
组”。我认为，我在文中的论述 ( Daivs ，1973) 更合适些。 

[8] 有关广义逆矩阵在统计学中的延伸论述，请参考相关著作 (Rao & Mitra , 1971)。 

[9] 我们可以给方程 1. 12加一些限制条件,使得广义逆矩阵变得唯一。比如， Moore - Penmse 广义逆 
矩阵 A 1 满足4个 条件： AA 1 A = A ； A 1 AA ' = A ^ AA f 是对 称的; A + A 也是对称的。在典型的 
统计应用中，广义逆矩阵非常好用。 

[10] 首先， A t •是 A 〔.的 广义逆 矩阵; 其次，由方程1.15,我们知道 A sE - iArE ‘、那么， 

AA A = (E %- E * OCE * A ；. E)(E ' ArE ^^ 

=E^'AfArArE* 1 
= E -' A .- E * 1 

=A 

从而方程成立。 

[11] 一元二次方程 回顾: x 满足 方程： 

(IT 2 +&T +f = 0 

其中， a 、6 和 r 为指定常数，那么， 

— 6di %/6 2 — Aac 

X ~ Ya 

[12] 通过解特征方程求特征值不是一个很好且很有吸引力的方法，还有一些比较实际的求解特征值 
及其特征向量的方法。 

[13] 对于一个对称正定矩阵，我们仍然有可能找到其 Cholesky 因子，但是加上相应行中的其他元素， 
矩阵 U 会有一个或多个对角元素为0。另外，为了解决矩阵 U 对角元素的问题，我们必须取正平 
方根。 

[ M ] 牛顿声称，莱布尼茨窃用了他的研究成果,从而引发了科学史上最著名的争论之一。 

[15] 在有些数学领域，自然数仅指正整数。 

[16] 虽然我倾向于详细地标出对数的底，如 log 10 , lo & (除非底是不相关的，标出 log 已经足够），但是 
其他许多学者喜欢用 log 或者 lri 代替自然对数。 
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[17] 微商不是普通的数字，所以可以把链式规则想象成同时乘以和除以一个引发机制微商在导 
数中引人微商是有效的。 

[18] 超平面是指超出三维空间的一个线性（平•的)表面。超平面的维度比总空间的维度少1•就像三维 
空间里嵌人的一个二维对象。 

[19] 有些学者喜欢加人约束条件，而不是减 去之： 

/ z ( X | » X 2 » •••， J0„ » A ) = /(* Ti ， 工2 ， •••，工”） + A X 

但是，除了 A 的符号发生改变以外，这两种方法是没有差异的。 

[20] 如果对于任意非零向量*，有 X ' Hx >0, 那么我们说方阵 H (这里是海森矩阵)是正定的。正定海 
森矩阵是最小值的充分非必要条件。同样，如果对于任意非零向量 X ，有 X ' HX <0, 那么我们说 
方阵 H (这里是海森矩阵)是负定的。负定海森矩阵是最大值的充分非必要条件。 

[21] 非零整数》的阶乘定义为《! 1)(» — 2) …(2)(1)。按照惯例，0! = 1! = 1。 

[22] 这种近似叫做“穷举法”(虽然不是传统的极限表示）.被古代希腊人所熟悉。 

[23] 读者可以证明 FCr ) 是函数 /( x )= x 2 +3 的一个反导数。一般而言，我们可以通过反过来应用幂 
函数的导数的规则，进而寻找多元函数的反导数。 

[24] 样本空间是无限的，原因在于可能需要等任意足够长的时间才能观测到第一次出现硬币正面的 
情况,尽管在现实中等待无限长时间的概率是极小的。通常，当 S 是离散且无限的时候，我们称 
其为“可数无穷”，因为 S 中的元素与自然数0、1、2等-•一对应。 

[25] 这些定理类似于(或者等价于)那些由20世纪俄国数学家八 . N . 柯尔莫戈洛夫 ( A . N . Kolmogorov ) 
所提出的定理。 

[26] 如果随机变量 X 可取有限或者可数无穷多的不同值，那么我们说，该随机变量 X 是离散的。 

[27] 概率通常对应的是密度函数 /> Cr ) 下的区域•随机变 M X 的某一特殊值 * r 。 下的区域^-条与 

横坐标垂直的线，其概率为0。 

[28] 一 个连续随机变 MX 的概率密度函数常常表示为/( X )，其累积分布函数表示为 FCr )， 但是我觉 
得用 〆I )和 〆 •!•)表示更好.因此我倾向于把 /( •) 留作他用，比如随机变量的变换。 

[29] 如果你对积分不是十分熟悉，不要过于苛求。其理解的关键点在于，我们将概率密度曲线 PU ) 

以下的区域解释为概率.累积分布函数 CDF 的高度告诉我们，随机变量 X 的可观测值小于 

或等于某一特殊值 I 的概率。积分符号 J " 表示连续求和，代表了曲线以下的区域。 

[30] 由于 〆 ■!■) 具有连续性.再加上卩!<；1：=办）=?>'(叉= 4)=0.我们不需要区别？1'(了。<乂<4) 
和 Pr (* r。<C X <C j -| ) 0 

[31] 一些随机变 M 没有定义其期望值和方差，在这里，我忽略了这一可能性。 

[32] 我们是在 X 的支持下整合的，因此不需要包含整条实线。 

[33] 如果你对第2章介绍的有关积分部分的内容不太熟悉，其实可以简单地把积分符号 J 看做求和 
符号。 

[34] 这里用希腊字母; r 的原因在于，概率无法被直接观测到。由于 ; r 代表概率，其值在0到1之间， 
所以不要将其跟数学常数〜 3. 1416混淆。 

[35] 回忆一下有关阶乘运算的 法则： 

1) X … X 2 X 1 h 为任意大于1的整数） 

= 1(” 等于0或 1) 


[36] 一些作者会用 N(y a ) 来代表正态分布，该表达用正态分布的标准方差代替了我们所用的方差。 



150 


社会科学中的数理基礒及应用 


[37] 任意存在有限均值和方差的随机变 M 都可以标准化为均值为0、方差为1的随机变量。但是标准 
化对分布的形状并无影响，尤其是，它不会把一个不是正态分布的变量变为正态分布的变量。 

[38] 小写字母/是一个通用表示方法。 

[39] 当 n = 1时， E ⑴的期望值不存在，但是/的中位数和众数仍为0。被称为“柯西分布 ” (Cauchy 
distribution )， 它是以19世纪法国数学家奥古斯丁 • 路易斯 • 柯西命名的。 

[40] 将命题反过来则为 假:随 机向董 x 所包含的元素的边缘分布是单因素正态分布，不一定为多元正 
态分布。 

[41] 把{仏，，…， A ,， 说成非随机序列不会有明显的矛盾，虽然这些概率建立在随机变量上，但 
是概率本身是特定的数字——如 0.6, 0.9 等等。 

[42] 用渐近分布定义渐近期望值和方差更具吸引力，因为这个目的的序列不是在所有情况下都存在 
的 ( Theil ， 1971： 375-376； McCallum , 1973)。我所用的渐近期望和方差的符号—— e ( •) 和 
tK •) ——不是标准化的，读者应该注意，这些符号有时会被普通期望值和方差的符号—— E ( •) 
和 •) ——所替代。 

[43] 有关统计估计的大部分材料以及这本书的相关内容均来自费舍尔 ( Fisher ，1992) 的一篇论文，该 
论文被誉为20世纪最重要的统计论文之一 ( Aldrich ， 1997)。 

[44] 如果没有强调对称性，我们所说的中心概念就会变得很模糊。 

[45] 严格来说，的导数没有定义£ = 0时的情况，但为方便起见，我们将 E = 0的情况设定为 

0LAV ( 0 ) = 0 „ 

[46] 可以写成该形式的估计值可以看成最大似然估计值的广义形式，因此，也被称为 “ M 估计值”。最大 
似然估计量是通过对合适的概率函数或者概率密度函数 />( •) 进行变换~.(^ —沁= 
— lo&./>(x — 得来的。 

[47] 我所用的命名不太严格，只是比较方便而已。严格地说，0函数不是一个影响函数，只是其形状 
与影响函数相同。 

[48] “双平方”常常应用在0函数和权重函数上(因此称为“双权”），它是近期才出现的统计词汇，但是 
作为目标函数却不是。 

[49] 因为一个重新降级过的 M 估计值的估计方程(如双平方)可以有多于一个的平方根，所以选择初 
始估计便成为必然。 

[50] 似然函数是 7 T 取值在0和1之间的连续函数。此例与概率函数的不同之处是，它所有可能的样 
本是有限的，为 2' 

[51] 严格地说， Fishei ■信息是参数值为 a 时所估计记分的 方差： 

— [(^)>] 

在许多情况下，该方程与文中提及的方程等价，但是相对复杂和麻烦。请注意，记分的方差仅是 
其平方的期望值，因为在《时，其期望记分为0。 

[52] 在观测信息上建立 MLES 的方差估计值是可能的，而且更方便计算。 

, ( ^,—cf\og r lAa) 

[53] 我们说参数是独立的，意思是空值可以从其他参数取值得到。如果参数间存在依附关系.那么多 
余的参数就会通过一个函数被其他参数所替代。 

[54] 在单一参数的例子中， Fisher 信息更广义的定 义为： 
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卞] 

同样，我们可以通过用 MLEa 时的观测信息来进行研究。 

[55] 要利用贝叶斯推断，先验想法必须符合概率论，所有先验概率的和必须为1。 

[56] 在这种情况下，先验是一个长方形密度函数，其参数 7 T 被限制在0到1之间。例如，估计正态分 
布的均值//不存在界域问题，那么它在_00<"<00的扁平先验形式 〆 存在一个有限 
概率，因此无法代表密度函数。当它和似然函数合并后，例如成为一个不正常先验，还是会导致 

•个正常后验分布-一个积分为1的后验分布。还有，一个概率模型的参数化扁平先验对于 
一个可替换参数化方案来说并不扁平。假设我们取发生比 W E ； r/(l — 7 T ) 作为参数，其等价的对 
数形式为 A E log,|>/(l — 7 T )] 。 7 T 的扁平先验对 O ； 和 A 都是不扁平的。 

[57] 一个替代方法是把后验分布的均值作为 7 T 的点估计。然而在大多数情况下，随着样本量的不断 
增加，后验分布会越来越趋近正态分布，那么，如果样本量足够大，其众数和均值是几乎相等的。 

[58] 该规则有个例外，即对于某些参数值，先验分布为零密度分布，那么，对于这些参数值，其后验分 
布也会是零密度分布。 

[59] —般而言，独立意味着不相关，但是不相关的随机变 M 不一定是独立的。但是，在多元正态分布 
中，独立和不相关是等价的。 

[60] 关于这段所提到的结果的证明，可参见相关著作 ( Rao , 1973)。 

[61] 为了使假设可行，两个解释变量心、 x 2 必须用相同的单位来衡 M 。 

[62] Delta 方法在这个问题 t 的应用是由威姿伯格 ( Wcisberg ，2005) 提议的。 

[63] 前面的结果对于新假设下的 X 是适用的，但并不代表这些假设是完全没有问题的。许多解释变 
M 都是有测 M 误差的，且在某些条件下，它们会使估计系数有严重的偏差。同样，在特定的（一般 
的）回归等式理解中•关于解释 变量误 差独立的假设等价于模型中包含的 y 的决定因素和忽略因 
素是不相关的。最后，线性假设、常误差方差和正态都是有潜在问题的。能令人满意地处理好这 
些问题，与回归分析作为数学抽象和数据分析的实用工具是不一样的。 
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译名对照表 


asymptotic bias 

渐近偏差 

asymptotic distribution theory 

渐近分布理论 

augmented matrix 

增广矩阵 

basis 

基 

Bayesian statistical inference 

贝叶斯统计推断 

Bernoulli distribution 

伯努利分布 

binomial distribution 

二项分布 

biweight 

双权 

bisquare 

双平方 

bounded 

有界的 

breakdown point 

崩溃点 

canonical form 

标准形式 

central-limit theorem 

中心极限定理 

central postprior interval 

中央后验区间 

characteristic equation 

特征方程 

characteristic root 

特征根 

chain rule 

链式规则 

comfortable for multification 

乘法相适 

complement 

补集 

conditional probability 

条件概率 

conditional probability density 

条件概率密度 

conjugate priors 

共轭先验 

definite integral 

定积分 

derivative 

导数 

diagonal matrix 

对角矩阵 

difference quotient 

差商 

differentiation 

微分 

efficiency 

有效性 

eigenvalue 

特征值 

eigenvector 

特征向量 

empty event 

空事件 

entry 

元 

expected information 

extrema 

期望信息 

极值 

factorial 

阶乘 
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Fisher information 
fitted value 
fractional powers 
Gaussian elimination 
hazard 

Hessian matrix 

homogeneous system of equations 

hyperplane 

idempotent 

identity matrix 

influence function 

inner product 

integer 

irrational number 
Jacobian of the transformation 
joint probability distribution 
jointly sufficient statistics 
Lagrange-multiplier test 
latent growth curve model 
latent root 
least-absolute values 
limit 

limit of integration 

linear simultaneous equation 

log-odds 

lower-triangular matrix 
marginal posterior distribution 
marginal probability distribution 
marginal probability density 
matrices of cross-products 
matrices of sums of squares 
matrix inverse 

maximum-likelihood estimation 
mean-deviation vector 
mean-squared error 
minimally sufficient 


Fisher 信息 
拟合值 
分数幂函数 
高斯消去法 
风险 

海森矩阵 

齐次方程组 

超平面 

等幂元 

单位矩阵 

影响函数 

内积 

整数 

无理数 

雅可比迭代 

联合概率分布 

联合充分统计量 

拉格朗日乘数检验 

潜在增长曲线模型 

潜伏根 

最小绝对值 

极限 

积分域 

线性联立方程 
对数优比 
下三角矩阵 
边缘后验分布 
边缘概率分布 
边缘概率密度 
交叉乘积矩阵 
平方和矩阵 
逆矩阵 

最大似然估计 
平均偏差向量 
均方误差 
最低充分 
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multinomial distribution 

multivariate-normal distribution 

natural number 

negative binomial distribution 

negative powers 

non-singular matrix 

nonstochastic infinite sequence 

nontrivial solution 

null event 

objective function 

odds 

operator 

optimization 

order 

orthogonality 
orthogonal projection 
outlier 

overdetermined system of equations 
partial regression coefficient 
particular value 
partitioned matrix 
pivot 

positive-definite matrices 
point of inflection 
Poisson distribution 
posterior probability 
prior probability 
Pythagorean theorem 
quotient 
random variable 
rank 

rational number 
real number 
realization 

rectangular/uniform distribution 
reduced row-echelon form 


多项分布 
多元正态分布 
自然数 
负二项分布 
负幂函数 
非奇异矩阵 
非随机无限序列 
非平凡解 
零事件 
目标函数 
发生比 
算子 
最优化 
阶 

正交 
正交投影 
异常值 
超定方程组 
偏回归系数 
表示变量的特殊值 
分块矩阵 
主元 

正定矩阵 
拐点 

泊松分布 
后验概率 
先验概率 
勾殷定理 
差商 
随机变量 
秩 

有理数 
实数 
实现 
均匀分布 

行简化阶梯形矩阵 
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regression sum of squares 
residual sum of squares 
resistance 
robust regression 
robustness of validity 
sample space 
sampling distribution 
sampling variance 
scalar constant 
scalar random variable 
scale parameter 
score 



shape parameter 

singular-value decomposition 

singular matrix 

stationary point 

submatrix 

support 

tangent line 

tangent hyperplane 

tangent plane 

trace 

transpose 

total sum of squares 
tuning constant 
unbiased 

unconditional probability 
undetermined system of equations 
unit-normal distribution 
upper-triangular matrix 
vector 


回归平方和 
残差平方和 
耐抗性 
稳健回归 
效度稳健性 
样本空间 
抽样分布 
抽样方差 
纯量常数 
纯量随机变量 
尺度参数 
记分 
割线 

形状参数 

奇异值分解 

奇异矩阵 

驻点 

子矩阵 

支持 

切线 

切超平面 

切面 

迹 

转置 

总平方和 
细调常数 
无偏 

无条件概率 
欠定方程组 
单位正态分布 
上三角矩阵 
向量 

随机向量 
向量偏导数 


vector random variable 
vector partial derivative 
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在介绍统计方法的著作中，有 一小部 分著作主要介绍数学方面的知识。例如，哈格 
尔 ( Hagle ) 的著作为社会科学家介绍了一些基本数学知识,艾弗森 （| va sen ) 的著作介绍 
了微积分。赫克费尔特 ( Huckfeldt )、 科费尔德 ( Kohfeld ) 和莱肯斯 ( Likens ) 合著的《动态模 
型》是一本更专业的数学书，介绍了差分方程。本书通过把时间作为连续变量而非离散 
变量,进一步介绍微分方程，以便拓展读者数学方面的知识。 

数学和统计学存在一些基本差别。统计学过 去一直 被看做应用数学的一个分支，介 
绍如何把数学应用到社会科学研究中。虽然这两个学科都使用相同的数学符号来表示 
变量、参数及方程，但是统计模型的特点在于它的随机性，而数学模型一般是确定性的 
(虽然随机过程也可以放到模型中，生成随机微分方程}。统计模型有助于社会科学家验 
证理论，而数学模型有助于研究人员做理论探索和理论构建。统计模型包括数据归纳 
(如利用大量的观测值来做参数估计），而数学模型则意味着知识的延伸（如用几个起始 
条件来预测一系列的行为模式)。 

布朗的这本《微分方程》将具体介绍如何应用微分方程来构建理论并扩展知识。 

尽管莱布尼兹和牛顿早在17世纪就创立了微分方程,但微分方程在社会科学中的 
应用却滞后了很久。例如，马尔萨斯利用一个常微分方程得到人口增长模型， dp/dt = 
rp , 其中， p 表示人口数量，它是时间 f 的指数函数，指数增长率由参数 r 决定。然而，微 
分方程在社会科学中的实际应用是在1925年人口学家、生态学家艾尔弗雷德.洛特卡 
(Afred Lotka) 提出了洛特卡一沃尔泰拉模型 （ Lotka-Volterra model) 之后，这是一个描述 
两个物种之间关系的猎食模型。从此以后，这个模型得以扩展，可应用到多个物种及其 
他人口学分析中。除了在人口学研究中的应用,微分方程在20世纪还被数学家、物理学 
家、心理学家路易斯 • 弗莱.理查森 (Lewis Fry Richardson) 成功应用到经典的军 备竞赛 
模型中，还被社会学家肯尼斯.兰德 （Kenneth Land) 应用到涂尔干社会劳动分工 
(Durkheimian division of labor in society) 的数学模型以及许多其他现象的分析中，例如， 
社会、文化和科技传播及流言的散布的分析。 

布朗不仅为数学和统计学拓展了一个主题，而且向社会学家提出了新的挑战，希 



望社会学家能走出以变量为取向的思维定势，更多地从过程的角度来思考问题，因为 
对过程的理解毫无疑问是正确理解人类的政治、心理和社会行为至关重要的一个 
环节。 

廖福挺 



第 1 章 I 动态模型与社会变迁 


人类生活在持续的时间里，所有社会现象的发生都是连续的。微分方程正 
是模拟这种随时间推移而连续发生的变化。微分方程在模拟社会和政治变迁 
上的广泛应用能开启社会科学前沿研究的新局面。 

在物理和自然科学领域，科学家们常常用微分方程来模拟各种现象的变 
迁。这样做的原因并不是他们所研究的现象呈现岀来的变化过程非常独特以 
及社会和政治变迁存在本质差异。例如，化学反应中的传染和扩散过程与社会 
现象呈现出来的过程类似。更确切地说，物理学家和自然科学家使用微分方程 
是因为想用这些模型来更好地模拟在真实世界中发生的现象随时间连续变化 
的本质。也就是说，这些现象本身要求使用微分方程。 

社会科学家也研究变迁，且有几个非常值得注意的、用微分方程来模拟社 
会变迁过程的例子。这些有巨大影响的例子已经成为现有社会科学文献中经 
典的理论思考典范。路易斯 • 弗莱 • 理查森的军备竞赛模型就是其中的一个 
例子。 

然而，微分方程在社会科学中的应用程度远没有自然科学和物理科学中那 
么广泛。这主要由两方面原因造 成:一 方面源自理论，另一方面源自传统。从 
理论角度来讲，社会科学中大量早期的经验研究都建立在20世纪50年代出现 
的人口调查的基础上 （ Berelson，Lazarsfeld &- McPhee , 1954； Campbell , Con ¬ 
verse , Miller &- Stokes , 1960)。 研究人员利用交叉表和各种相关分析技术来 
分析这些调查数据。这些早期的经验研究极大地促进了人们对社会和社会变 
迁过程的理解。这些研究方法的应用最终导致了回归模型在现有社会科学经 
验研究文献中占主导的局面。基于这些理论方面的原因，社会科学家一直被培 
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训使用统计模型而不是微分方程模型。专注于统计模型的训练现在已成为常 
规应用社会科学方法发展的历史传统。但是，考虑到许多社会和政治变迁过程 
实际上是连续发生的，因此，如果社会科学家更常用连续时间模型来模拟所研 
究的变迁的动态结构，那么，社会科学中将会涌现出很多重要的新发现，这样的 
假定是非常符合逻辑的。 

本书的主要目的之一，是把微分方程建模介绍给社会科学中的更多研究人 
员。而且，我也期望社会科学家能增加微分方程在社会和政治变迁建模中的应 
用，这种应用能开拓社会科学家新的理论思考方式，这种理论思考方式将导致 
一些新发现。同时值得注意的是，一套源于系统理论的理论构建图示法的存 
在，能协助社会科学家生成微分方程模型，从而帮助他们理解理论的高度复杂 
性和精密程度 （ Brown ， 2008; Cortes , Przeworski Sprague , 1974)。 

也许很多社会科学家会问，相对于其他方法，微分方程在研究社会变迁时 
存在什么优势呢？各种变迁一般都可以用微分方程和差分方程这两种模型来 
表示。两种模型的区别在于，微分方程以连续的方式模拟变化，而差分方程以 
离散的方式模拟变化。除了这一点之外，微分方程和差分方程的相似性远大于 
其异质性。因此，虽然微分方程和差分方程的处理机制不同，但是本书中的很 
多概念仍能用于差分方程的研究。虽然微分方程和差分方程都可用于除时间 
之外的自变量，但是由于这些方程主要用于有关时间的变化，所以本书将集中 
讨论这种用法。在讨论微分方程之前，值得花些时间说明，为什么社会科学家 
最初会想到使用微分方程。 


微分方程在社会科学中应用的理论依据 


相对于微分方程模型，社会科学家更常用统计模型。但我们并不能因此断 
言，统计模型优于微分方程模型，反之亦然。每一种建模的方法都有其自身的 
优缺点。统计模型非常适合检验实证理论，尤其适合试图通过使用相关分析方 
法来确认变量之间的因果关系。因此，当我们想知道用于阅读的时间是否提高 
阅读理解的考试分数时，我们可以选择一个联系这两个变量的统计模型。但 
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是，也存在这样的情形，即虽然微分方程模型可能更适用或更有意思，社会科学 
家却倾向于使用统计模型，这样做也是有原因的。应用很多统计模型就像“从 
箱子里取东西”。统计模型的应用如此便利，在一定程度上可能促使一些社会 
科学家避开使用，甚至不考虑更有趣的、非线性确定性的动态模型，尤其是连续 
时间模型。 

使用微分方程模型最重要的原因之一是构建理论。社学科学家可以使用 
微分方程来构建关于社会政治现象的理论，这些理论能详细说明随着时间变化 
的具体过程。当然，也可能有人说，统计模型也可以用来构建社会理论，而且确 
实存在这种情形。但一般而言，统计模型更多地被函数形式所限制，在一定程 
度上与微分方程大相径庭。统计模型之所以如此，有其重要的实践原因。统计 
模型必须适用于许多实证情形，因此在任何实证检验之前，都需要完全以可编 
程的公式形式来弄清这些模型的分析解。这种要求使得大部分统计模型使用 
已有的方程式，因为这些方程式的概率已知且易于驾驭，我在后面将具体说明 
这个问题。而微分方程模型通常不受这种要求的限制。实际上，使用微分方程 
时，一个模型的建构仅仅受限于研究人员在社会理论上的创造力。由于数学理 
论和计算科学的发展，现在，一个研究人员可以借助微分方程模型提出前所未 
有的、复杂巧妙的社会政治理论。 

近来，越来越多的社会科学家使用微分方程来模拟社会现象，这些尝试的 
广度和深度可以通过一些实例来说明。在社会科学中使用微分方程模型的一 
些经典例子包括西蒙 (Simon，1957) 、科尔曼 (Coleman, 1964) 和拉波波特 (Rap- 
oport, 1983) 的经典讨论。在国际关系领域，理查森 （1960) 将微分方程模型应 
用于军备竞赛的经典分析被其他学者广泛引用。普齐沃斯奇 (P rzew0rs ki) 和索 
尔斯 (Soares) (1971) 探索了很多使用微分方程来处理阶级意识和左翼分子投票 
之间的动态过程。图马 (Tuma) 和汉南 （H an mm)(1984) 从社会学视角讨论了很 
多使用微分方程系统研究社会动态过程的方法。戈特曼 (Gottman)、 默里 (Mur¬ 
ray)、 斯汪森 (Swanson) 、泰森 (Tyson) 同时运用微分方程和差分方程来考察婚 
姻的心理动态过程。卡德拉 （Kadera，2001) 利用微分方程来分析州际政治竞 
赛，并因此获奖。布朗 (Brown, 1994、 1995a) 利用微分方程来模拟开发或保护 
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环境的决策对环境恶化的影响。当利用美国和魏玛共和国选举的调查和合成 
数据时，布朗 （1986 b 、 1988、1991、1993、 1995 a ) 也使用微分方程来重现两国选 
举中不同的党派斗争过程(这也称为“边界值问题”)。 

在通常情况下，研究人员想生成一个能连续界定时间的模型有很多理由。 
因为数据的收集存在间隔，所以社会科学家经常以离散时间的方式来思考问 
题。例如，普查数据一般每10年收集一次，选举数据每几年收集一次。但是，许 
多变迁过程在本质上是连续的，因此，存在一些情形需要社会科学家利用微分 
方程来模拟这类社会变迁过程。这需要社会科学家们重视一个事实，即出于便 
利的考虑，这个连续过程可能被分段进行测量。在这种情形下，使用微分方程 
来模拟一个连续变化过程，有时可能完全偏离事情发生变化的真实时点，进而 
影响对所调查事件的理解。 

一个实例 

下面将通过一个例子来介绍微分方程，这个例子展示了微分方程的强大， 
即便利用一个简单的微分方程,也能处理复杂的社会理论。如今，全球变暖的 
问题受到广泛关注。二氧化碳和其他温室气体通过人类行为排放到大气中。 
全球变暖潜在地改变了人类文明不面临高难度挑战而持续发展的能力。实际 
上,如果全球变暖如很多科学家声称的那样持续下去，我们将面临很多临海城 
市由于海平面升高而不得不撤离人口的情形。想象一下，以后去纽约的第五大 
道旅游的唯一方式是通过独木舟或潜水装备。一旦华盛顿被淹没，那么美国的 
首都将迁到哪里呢？如果美国的首者卩迁到亚特兰大(高出海平面 304. 8米），亚 
特兰大的居民是否像现在华盛顿的居民那样，失去了他们在国会中投票权呢? 
伴随着温度的升高和海平面的上升，全球气候会发生什么变化呢？当气候恶化 
时，我们赖以生存的庄稼会怎样呢？全球变暖的可能后果如气候变冷一样无穷 
无尽。这些有趣的问题即下面微分方程模型实例的研究动机。 

阿纳托尔 • 拉波波特 (1983:86 — 91) 在研究污染恶化及其对人类数量和生 
活质量的影响时，提出了下面的模型。拉波波特也利用这个模型延伸了由杰 
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伊 • W . 福里斯特 （Jay W . Forrester )(1971) 发起的前沿性的同类理论研讨。 
我们把温室气体视为污染的一种形式，用变 MP 来表示污染的水平（这里，我 
使用拉波波特文中用到的数学符号）。我们感兴趣的是模拟这个变量随时间 
变化的过程。一种方法是，简单假设这种污染物以固定的速率排放到大气 
中。从这个假设得出的模型比较保守，因为污染物的排放率实际上会随着人 
类工业活动的日益增加而增加。但是.即使利用这个保守的假设，拉波波特 
的模型也发现了令人惊讶的结果。我们可以把这个固定的排放率写成温室气 
体水平的变 化率： 

dP/dt = I 


其中， J 表示污染物的固定排放率。 

但是，二氧化碳并不是排放到大气中就一直不发生变化，而是最终被植物 
吸收。因此，我们需要在我们的模型中加人一些减少温室污染水平的方法。最 
直接的方法是减少的速率将和污染水平成一定比例。因此，当空气中的二氧化 
碳比例升高时，植物也会吸收更多的二氧化碳，这是因为二氧化碳的浓度增加 
有助于植物的增长。用数学公式可以表 示为： 

dP/dt = I-aP 

其中， a 是个常数 ，一 表示大气中因被植物吸收而减少的二氧化碳。 

这个模型存在一个均衡点，也就是说，当= 0或 J = oP 时，污染物的 
增加将停止。因此，当污染水平增长时，植物的吸收率将最终等于污染物的 
排放率 h 总体污染的增长将停止。但现实情况是这样吗？大气中二氧化碳水 
平的增加也可能是抑制植物增长的行为造成的。例如，在二氧化碳增加的同 
时，砍伐森林的工业活动也增加。这种伴随岀现的人类行为也可能导致其他形 
式的污染，而这同样也会引起植被破坏。 

由于附属效应的存在，我们可以看出，二氧化碳水平的减少率并不和污染 
水平 P 成简单的比例关系。相反，我们将假设 a 不再是常数，而是随着 P 值的 
增加而减少的值。我们可以用公式来描述参数 a 降低空气中二氧化碳水平的 
弱化效应 a =办^^，其中，是这个参数的初始值(如 P = 0), 々是一个常数。 
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从中可以看出，当 p 值增加时，的值渐渐趋近于0。此时，拉波波特的污染 
模型可以写成如下 形式： 

dP/dt = I-a 0 Pe- kp 

从中可以看出，污染物的增长率/将导致 P 的增加将渐渐减缓前述模型中 
的增长量。但当 P 持续增加时，将发挥越来越重要的作用，描述由植物吸收 
的二氧化碳污染的减少项（一 &) 将趋近于0,此时只剩下增长率/这一项。 
这将导致污染无限增加，最终引发地球灾难。这里最关键的问题是，我们要认 
识到，从这个简单模型中得到的结论有大量的现实意义。充分理解这个模型能 
帮助我们以深人的新方式来更严肃地思考全球变暖问题。 

就分析拉波波特污染模型而言，还有很多可以探索的问题。然而，前面简 
短的讨论足以清晰地表明，微分方程能描述非常复杂微妙的理论想法。上述的 
微分方程模型从理论上丰富了我们对于全球变暖问题的复杂动态过程的理解。 
我们很难想象用线性回归模型来处理同样的问题。然而，线性回归模型能用于 
处理有关全球变暖的其他问题，如研究二氧化碳水平和气温升高之间的相关关 
系，而且这也是全球变暖问题一个非常重要的研究方面。因此，当我们使用微 
分方程时，我们并不是极力贬低统计模型的重要性。实际上，我所认识的所有 
社会科学家通常两种模型都会用。但是，使用微分方程促成理论构建的想法是 
使用微分方程建模的一个特点。我们也应该注意到，微分方程模型的参数估计 
是完全可行的，这很好地弥补了统计模型的不足。 


微分方程在自然科学和物理学中的应用 


虽然本书的重点是介绍微分方程在社会科学中的应用，但这种确定性模型 
一直是数学分析在自然科学和物理学应用中的主流，在此很值得简单介绍此类 
应用。在自然科学中，微分方程被广泛应用于群体生物学中，以研究生态系统 
中不同物种之间的互动 （ May ， 1974)，例如，洛特卡 （1925) 和沃尔泰拉 （1931) 提 
出的著名的猎食者一猎物方程。从代数学角度来说，微分方程在生物学中的应 
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用在很多方面类似于它在流行病学中的应用。流行病学基本上关注疾病的传 
播。传染性疾病的许多传播扩散机制能用微分方程来建模。微分方程也适用 
于分析疾病传播的季节性和其他周期性问题。 

在物理学中，微分方程的广泛应用可以追溯到牛顿。实际上，牛顿第二定 
律就是一个二阶微分方程，即力等于物体的质量和加速度的乘积 (F = ma ) (因 
为速度是一阶导数，而加速度是速度的导数）。这类微分方程模型大部分是确 
定性的。 

有趣的是，自然科学家和物理学家正在扩大以前主要用于社会科学的概率 
统计模型的使用，这是否意味着确定性模型正逐渐失去它的用武之地呢？例 
如，量子力学的新发现促使很多物理学家从概率统计的角度看问题，他们已经 
意识到，量子现象基本上是以一定的概率存在于自然中。这可以追溯到约翰 • 
贝尔 (John Bell ) 提出的著名定律，它有助于决定爱因斯坦 ( Einstein )、 波多尔斯 
凯 ( Podolsky )、 罗森 ( Rosen ) 和尼尔斯.波尔 （Neils Bohr ) 的争论是否真正得到 
最终的解决 ( Aczel ， 2001)。直到20世纪八九十年代，被称为“量子纠缠”现象 
的实验结果明确地证明，爱因斯坦关于量子宇宙基本上是确定性的观点是不正 
确的，而且没有任何潜在的局部变量能解释这种纠缠现象。因此，量子现象进 
一步强调了应用概率统计方法的重要性。但是，尽管使用概率模型的兴趣曰益 
增加，物理学家依旧用确定性模型来模拟量子和其他现象，并且，他们继续使用 
微分方程方法，不管是概率性的还是确定性的。物理学家被引向使用更多统计 
模型的原因之一是，他们想在微分方程模型中纳人更多的统计测量，并不局限 
于使用微分方程。因此，在很大程度上，当社会科学家越来越多地使用微分方 
程，而自然科学家和物理学家越来越多地应用概率统计模型时，在所有科学(包 
括社会科学)中常用的数学方法越来越相似。 


确定性微分方程和概率性微分方程的比较 


为什么社会科学家应该使用确定性数学？这个问题在社会科学领域内一 
直存在争议 ( Coleman , 1964:526— 528) 。坦白地讲，大部分争论的贏家似乎都 
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是概率数学的提倡者，通常他们无论是从数量上（概率数学的支持者居多）还是 
从争辩中(假定社会现象存在随机性的固有本质），都胜过确定性论者。乍看之 
下，形势是倾向于概率论者这边，但实际上，这场争论并没有定论。这场争论的 
真正答案归结于细化的 程度。 记住，所有的数学模型（包括确定性的和概率性 
的)都是对事物的复杂过程的近似处理。任何模型构建的一个本质特征是通过 
忽略许多其他因素来获得简约性，从而分析最重要的因素。底线则变成每个模 
型接近复杂过程的程度，以致最终的数学模型大部分近似表现了真实世界的发 
展过程。我的基本观点(在后面将进一步解释)是，确定性数学比概率数学的代 
数形式更丰富，它能弥补概率数学中的信息丢失，这种丢失是在随机模型的建 
立过程中，因为忽略某些更复杂的概率信息而造成的。 

确定性模型比大部分随机模型更细化，能更好地模拟细微之处。随机模型 
也是方程，但在大部分情形中，能有效使用的随机模型必须能够有效地处理统 
计变异，这是因为，随机模型是建立在概率分布的基础上的。把概率分布直接 
纳人一个模型中大大增加了模型的复杂性，即使对模型稍作细化也会使得模型 
无法处理。也就是说，随机模型只有当参数的解法能被编进标准的统计软件时 
才可用。这样的软件一般是用来求变量之间的相关关系，然后识别因变量的各 
个影响因素。模型本身一般是“即插即用”的，从某种意义上来说，研究人员可 
以把自己的变量放人之前定义好的代数式中。但当我们使用确定性模型时，我 
们能进人一个变化的代数领域，这是随机模型运用者难以想象的。这种做法常 
常需要研究者舍弃简单模型中常用的“即插即用”估计程序。 

这场争论也存在另一方面的问题。当随机模型理论上限于至少一个随机 
变量时，它们就无法构建于一个内在的确定性“核心”中，也就是说，一个确定性 
部分加上一个随机部分。由此可以看出，把模型区分为“确定性模型”和“统计 
模型”的主要依据是，确定性模型常常比统计模型的核心部分更微妙。例如，直 
线方程是确定性的，且直线方程是大部分统计模型的基础。线性方程的简化形 
式使得统计学家们能明确地解出方程的参数（如斜率和截距）。统计学家也能 
将统计假设应用到模型中。参数有明确的解，且通过将概率分布融人到模型中 
而成功地把模型中的确定性核心部分变成一个统计模型。但是，要做到这些， 
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研究人员必须既要找到一个能得出明确的参数解的模型，也要能找到与这个模 
型的不同部分有关的概率分布。研究人员没必要生成一个不能用概率数学解 
答其参数的复杂模型。 

使用确定性模型的真正原因在于希望发现更有趣的建模方法，以便正确解 
释社会现象，而至今并没有现成的统计方法能够解决这个问题。特定的概率假 
设可能不适用这些模型，而与这些模型相关的概率分布及其参数也可能未知。 
但是，这些模型中的代数部分却是它们的价值所在。确定性模型中的代数能根 
据研究的社会现象的本质需要来细化。实际上，任何一个统计学家都会告诉 
你，每一个建模的人可能犯的最大错误是 ，一 开始就找错了模型。一个错误的 
模型的参数估计通常是毫无价值的。因此，如果研究人员想要模拟能很好地解 
释存在细微差异的社会现象的理论，就最好使用确定性模型，因为确定性模型 
比统计模型能更好地抓住这些细微之处，而统计模型为了能利用现成的估计方 
法.一般会忽略这些细微差异。 

我们把微分方程视为确定性的是由于这些模型的最基本成分中存在确切 
的统计对应部分。幸运的是，最近几年，确定性数学发展迅速，现在几乎可以完 
全估计所有的确定性模型。因此，确定性模型和统计模型在实践方面的差距正 
在缩小，将来会有那么一天，即当研究人员建模时，仅仅把模型称为“模型”，而 
不再具体区分是确定性模型还是统计模型。 

微分方程既适用于确定性变异，也适用于概率性变异。本书主要介绍确定 
性微分方程。概率性微分方程在两方面和确定性微分方程存在本质差异。首 
先，概率微分方程用来模拟一个事件发生的概率，因此，概率模型描述了所有事 
件。但是，确定性模型则能直接模拟这个事件本身（不是这个事件发生的概 
率），也可能预测一个事件发生的片断。除非事件数量或总体规模非常小，否则 
这两个模型在这点上不存在很大差异 （ Mesterton - Gibbons , 1989)。其次，概率 
微分方程比确定性微分方程提供了更丰富的描述。两种微分方程都提供平均 
的预测值，但只有概率模型在给出这些平均预测值的同时，也提供计算方差的 
公式。但也存在一个问题，即概率微分方程将给数学计算带来巨大的难度 
( Brown , 1995 b : 第1章），即便是用最简单的模型，也会出现这样的情况。从数 
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学方法的角度来看，概率模型的更复杂的细化很快变得难以解答。有必要强调 
的是，与概率模型相比，确定性模型唯一的缺点在于不能计算平均预测值的方 
差。此外，如果有能力估计参数值及其统计显著性，确定性模型还是能够采用 
很多统计测量方法的。最后，用确定性微分方程建模能让我们从数学方面进行 
更多复杂有趣的细化，而这是难以用概率方法做到的。因此，在使用确定性模 
型时，我们以失去一小部分概率分析来赢得巨大的细化模型的灵活性。 

什么是微分方程？ 

在基础数学中，方程一般写成一个因变量作为一个或多个自变量的函数。 
例如，方程3^ = 是一个直线方程，其中 d 是因变量， x 是自变量， m 是直 

线的斜率，6是直线的截距。不过，微分方程是方程中存在导数的函数,如方程 
1.1 所示： 

dy/dt = ay [1. 1] 

在这个方程中^是因变量， K 时间)是自变量，《是参数。在这种情况下，给出的 
方程没有定义 J 值，而是定义 J 的变化量。因此，方程 1. 1表达的是，3^的变化 
率依赖于 J 值本身。当 J 值增加时，它的变化率也增加（只要参数《是正数）。 
这类方程称为“常微分方程”，因为它仅仅包括普通的导数，而不包括偏导数。 
包括偏导数的方程称为“偏微分方程”。偏导数如 Air 式所示。在本书中，我 
们只介绍常微分方程。在一些书中，常微分方程有时缩写成 “ ODE ”。 为了解释 
的方便，本书中提到的微分方程都指常微分方程。 

值得注意的是，方程 1. 1中的自变量并没有出现在方程的右边。这类微分 
方程称为“自主的”。如果自变量 f 作为一个自变量出现，则称这个方程为“非自 
主的”。方程 1.2 是方程 1.1 的非自主 形式： 


dy/dt = ay +cos ⑴ [1. 2] 

常微分方程 1. I 也称为“一阶微分方程”。在一阶方程中，导数岀现的最高阶数 
是一阶。在这个例子中，最高阶导数是 dy /出。 方程 1.3 是二阶微分方程，因为 
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方程的最高阶导数是 d 2 y/dt\ 在这类方程中 ，一 阶导数可有 可无： 

d 1 y/dt l = ay [1. 3] 

微分方程也可以根据次数来区分。有时方程中的导数升高幂次，此时幂次的大 
小称为“次数”。微分方程的次数指方程中最高阶导数的次数。因此，方程 1.4 
是一个二次一阶微分 方程： 

(dy/dt) 2 = ay [1. 4] 

方程 i . 4 中的表达法有点麻烦。因此，有些作者会用 y 来表示一阶导数， 
/来表示二阶导数，等等。因此，方程 1.4 可以简 化为： 

y ' 1 = ^ [1. 5] 

还有另一种方式可表示导数。此时，我们用点来表示导数的阶数，尤其是当时 
间^为自变量时。例如，方程 1. 1可以 写成： 

y = ay 

为了统一表达方式，本文均采用方程 1. 1和方程 1. 5中的表达方式。 

如果方程中除参数之外的变量之间仅仅是加法关系，则称这种微分方程为 
“线性微分方程”。其他的均为非线性微分方程。因此，一个线性微分方程中不 
包括自变量或因变量的幂次或乘积项。因此，方程 1. 1和方程 1. 3是一次线性 
自主微分方程，而方程 1. 6是一次非线性自主的一阶微分方程。更确切地说，方 
程 1. 1和方程 1. 3的因变量^是线性的，而方程 1. 6中的 y 是非线 性的： 

dy/dt = ay 2 [1. 6] 

本书主要介绍一次线性或非线性的一阶和二阶微分方程。微分方程常用于研 
究两个或多个一阶常微分方程组。实际上，任何二阶微分方程都能表示为一阶 
常微分方程组，这会在后面的章节中加以介绍。而且 ，一 个非自主微分方程也 
可以写成一阶微分方程组(这也将在后面的章节介绍）。因此，理解如何使用一 
阶微分方程(或方程组)是处理包括微分方程在内的许多不同情形的关键，这也 
是本书重点介绍一阶微分方程的原因。 
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研究微分方程的基础是解方程。按照惯例，求解微分方程即找到一个函数 
能明确解出因变量的值，而不是因变量的变化值。有很多方法可以用来求解不 
同种类的微分方程。了解这些方程是如何求解的意义在于，这可以帮助我们更 
好地理解微分方程的一般特征。例如，方程 1. 1是一个随时间变化的指数增长 
模型，即托马斯 • 马尔萨斯 (Thomas Malthus ) 关注人口数量时描述的一个动态 
过程。为什么这个“指数增长”模型从微分方程的数学表达式角度来看不是很 
直接清晰？不过，当我们在下一章求解这个问题的时候，就会变得一目了然。 

本书以一阶微分方程为例，介绍用分离变量法来求解一些微分方程的方 
法。传统的微分方程教科书一般都会用大量篇幅讲解如何利用各种求解方法 
来找到不同微分方程类型的确切解，但这种方法越来越不受关注。目前许多 
(有人会说大部分)有趣的介绍微分方程的书并不是去收集最后得到确切解的 
方法。过去，为了理解事物的特性，我们需要得到微分方程的确切解，但现在关 
于微分方程的研究集中在通常找不到确切解的微分方程的特性。这主要归功 
于现代计算机技术的发展。计算机通过不需要明确求解方程的数值技术来解 
微分方程。本书以同样的方式根据微分方程的特性来讲解。而且，除了两个例 
外之处，本书的其他部分都采用数值方法来求解。第一处例外是讲解分离变量 
法，另一处是介绍一阶线性方程组的求解。这些例外仅仅起启发作用，并不会 
减弱数值方法的重要性。因为现在微分方程的数值求解法非常重要，所以值得 
花更多些时间来解释它们的使用原理。 

当使用微分方程来模拟社会现象时，我们不再局限于直接能解答的线性微 
分方程。方程 1.1 是微分方程最简单的形式，很容易就能求解。但是在一般情 
况下，大部分微分方程问题都可能无解，尤其是非线性微分方程。非常幸运的 
是，现在用计算机很容易就能解出微分方程的因变量。这样的数值方法几乎能 
用于所有的微分方程。使用这些数值方法时，仅仅需要原始的微分方程和初始 
条件。 

这些数值方法的种类繁多，并呈稳定增长的趋势，每种方法在计算速度和/ 
或数值灵敏性方面存在自身独特的优势。本书介绍了其中3种最重要的方法。 
实际上，前两种 ( Euler 方法和 Heun 方法)在这里主要用来帮助启发我们理解四 
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次 Runge ~ Kutta 方法。 Runge ~ Kutta 方法在大部分情况下是首选。在下面的章 
节中，我们将更深人地介绍这些方法。 

本书的内容 

对大部分学科来说，学生选修完成一门大学课程之后，即便是在刚刚修完 
的时候，往往也只能记住课程内容的一部分。本书旨在让读者记住书中的知 
识，令选修微分方程课程的学生学会应用，并在他们以后的科研中派上用场。 
因此，希望读者能在以后的科学研究中记住本书所介绍的核心知识。也就是 
说，一门微分方程的课程及其使用的教材可能涵盖了比本书更多的信息量。 

下面举个例子来说明。大部分微分方程的课程都集中讲述方程解的存在 
唯一性定理。也就是说，当研究一个微分方程时，数学家们想弄清楚，方程是否 
确实有解，这个解是不是给定的自变量值的唯一解。这点对理论比对微分方程 
的应用更重要，因为对于大部分合理的微分方程模型来说，证明其存在和唯一 
性并不是特别困难。实际上，我们很少能在发表的文章中看到花篇幅去证明模 
型解的唯一存在性。如果本书要讨论模型解的存在唯一性，我就需要删减对应 
用微分方程建模进行评价的大量其他信息。实际上，出于同样的原因，也有很 
多书为了集中讨论模型的应用而不讨论解的唯一存在性。虽然这个问题非常 
重要，但作者们假设学习微分方程的学生已经具备了相关的知识。 

本书集中讨论利用数值方法解决微分方程组，这是最近学术圈的研究趋 
势。很多书虽然也涵盖了数值方法，但微分方程的传统求解方法主要是找到其 
分析解。侧重数值方法和求分析解都各有吸引人的地方。但在一般情况下，除 
了最简单的非线性模型外，一般很难或几乎不可能求得分析解，而数值方法既 
能处理线性问题，也能处理非线性问题。因此，本书只简单介绍一些微分方程 
的分析解的求法。 

本书还会介绍求解一阶微分方程的分离变量法以及存在两个不同实根的 
二阶线性微分方程的求解。其他类型的二阶微分方程的求解也有介绍，但并不 
是推导得出的。许多数学家可能认为需要把这部分补充进来，否则就不完整。 
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然而，对线性微分方程其他类型解的推导在其他参考书中会有论述，本书并不 
是一本包括微分方程各方面的教科书，因此，学生如果想更深人地学习，可参考 
其他相关教科书。而且，一些数学家也认为，事实上，分析解在线性微分方程模 
型之外，一般很少用于处理其他问题，因此，加强适用范围更广的数值方法在建 
模过程的应用，将会有很多启发性优势 （ Kocak ， 1989)。实际上，布兰查德 
( Blanchard )、 德瓦尼 （ Devaney ) 和霍尔 （ Hall ) 也提到，“鉴于如今科技的发展，过 
分强调解决微分方程的具体技巧的传统观点已经不再适用了”，“很多最重要的 
微分方程是非线性的，在这种情况下，数值和定性方法比分析技术效率更高” 

(2006 : vii )。 

本书也没有介绍有关经验数据的检验问题。与线性方程模型估计相比，微 
分方程模型的参数估计的挑战性大得多。这点不仅表现在处理连续时间变量 
的问题上，还表现为常常伴随微分方程模型出现的复杂的非线性数学。参数估 
计方法经常使用工程学中常用的计算机化数值技术。鉴于计算机的高速运算 
能力，这些模型的估计方法是完全可行的，且经常能见到。完全估计连续时间 
微分方程组及其方法的介绍实例可参见布朗 （1995 a )， 更多使用数值方法来评估 
模型的方法可以参见汉明 （ Hamming ， 1971、1973)。 

尽管本书有很多局限性，但本书不仅仅是一本微分方程的人门书，还包括 
了一些把微分方程用于社会科学研究中不可或缺且非常有价值的材料。大体 
上，本书涵盖了所有(或至少大部分)把微分方程应用到社会科学中所必需的知 
识。因此，虽然本书不是一本涵盖微分方程各个方面的书，但是它介绍了很多 
处理微分方程模型的方法，这足以满足建模的需要。研究人员也可以通过阅读 
其他书籍来拓展这方面的知识。 



第 2 章 I 一阶微分方程 


微分方程的研究起源于怎么求解这些方程。为什么我们需要求解微分方 
程，而不使其保持原样呢？由于这本书处理微分方程在时间方面的应用，则微 
分方程的解必然是时间的函数。例如，微分方程的解是函数/(0,这意 
味着，我们可以把因变量^替换成/(0。我们对这个微分方程的解感兴趣是因 
为我们想得到一个能给出任一时点的^值的函数。作为科学家，我们不仅仅要 
研究因变量^的变化，也要研究^的值。因此，如果我们不研究^本身，我们也 
需要找到别的方法得到这个变量值。 

有两种方法可以解微分方 程:第 一种是使用不定积分法的分析解，第二种 
是使用操作性更强的定积分法来解决问题的计算数值方法。我们从探求微分 
方程的分析解着手，介绍微分方程的求解问题。 


线性一阶微分方程组的分析解 


下面，我们从例子开始，如下面的微分 方程: 


dy/dt =— 3y 


或 


dy/dt + 3^y = 0 


[ 2 . 1 ] 


方程 2.1 是微分方程的一般形式，3>和> 的导数都在方程的同侧。方程 2. 1的 
—个解为 /(«) = 4^' 为了说明这是方程的一个解，我们需要知道 / G ) = 
dyldt 。 注意，/⑴= (4 f )' =— 12 e _ 3 '。 现在用/⑴替换方程 2. 1中的 
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办/出，用4厂 3 '替换 > 得到： 

- 12e~ 3 ' + 3(4f) =- 12e- 3t + 12e~ 3 ' = 0 

从这里可以看岀，方程 2. 1的一个解为 y 。 

有趣的是，> = 并非方程 2. 1的唯一解。读者可以看出 ， j 
y = 6 e - 31 , y = 7 e ~ 3 > ，甚至 j = 1298 e ' il 都是方程 2. 1 的解。如果把这些解代人 
方程，方程 2. 1都成立。如果我们想找出方程 2. 1的特定解，则需要一个附加条 
件。我们需要知道因变量^的起始条件(或初值)。一旦给定微分方程及其初 
值(一般是 f = 0时的值），确定微分方程的唯一解的问题就称为“初值问题”。 

值得注意的是，微分方程的解与一般算术方程的解存在两个关键的不同。 
首先，算术方程的解是数字，而微分方程的解是方程。例如，算术方程 3 _r — 6 = 
0 的解是2,是个数字。其次，微分方程可能存在无数个解，其特定解依赖于微分 
方程的初值。 

分离变量法求解一阶微分方程 

如果一个微分方程是“分离的”，则求解这个方程的分析解的方法称为“分 
离变量法”。当一个微分方程可以表示为两个方程的积(或商），每个仅依赖于 
一个变量，则称这个微分方程是“可分离的”。例如，方程 2. 2是可分离的，因为 
gU ) 仅依赖于自变量（，而仅依赖于因变量％之后我们会看到，即使方程 
中没有出现 g (<) 或也没问题。 


dy/dt = g { t )/ h { y ) [2. 2] 

要求方程 2. 2的解，可以先把方程2.2变换成/ 1 (^)办=尽(0^,然后对两边积 
分，得到方程 2.3： 

\ > h { y)dy = ^ g^Odt [2.3] 

刚开始我们可能难以理解，为什么仅仅通过变换方程 2. 2就能对方程 2. 3积 
分。假设函数 G 和 H 分别是函数 g 和/ I 的不定积分，也就是说， g 是 G 的导 
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数， / i 是 H 的导数。利用微分的链式法则，我们可以把 H ( j ) — G ( z ) 对/的导 
数 写成： 

H '{ y ) dy/dt — G '( t ) = h { y ) dy/dt 一 g ( t ) 

但是，从方程 2. 2 的变换中得到 h ( y ) dy / dt - g ( t ) =0, 这意味着 H ^ y ) — G ⑴ 
对< 的导数也为0。然而，只有常数的导数才等于0。这就意味着， 

等于一个常数，我们用 C 来表示。由于— GG ) = C ， 我们可以把它变换为 
H ( y ) = G ( i ) + C 。 这个方程等同于下面的 方程： 

^ h (. y)dy = g ( t)dt +C 

以上步骤证明了为什么可以用分离变量法来求解微分方程。 

分离变量法最好通过实例来介绍，下面通过介绍4种常见微分方程的求解 
来举例说明。这4种微分方程是许多常用的高级微分方程的基本组成部分，建 
议读者深人研究它们。实际上，詹姆斯 • 科尔曼 （1964:41 — 46) 称这几个经典的 
微分方程形式为广泛应用在扩散模型中的“理想类型”。 

指数増长型 

这4种微分方程中的第一种其实在前面的例子中出现过，即指数增长型，形 
如 dy / ck = ay ， 如第1章的方程1.1。在这个自主方程式中，变量 f 没有岀现在 
方程的右侧。方程 2. 2也可称为指数增长型，因为^> = 1，因此，在方程 2. 2中， 
g ⑴=1 。 

方程 1. 1有明确的解，可以使用传统的积分方法来求，如下所示。通过把方 
程 1. 1的变量分离， 得到： 

( l / y)dy - adt 

这就是一个简单的积分 问题： 

J ( \/ y)dy = ^adt 

得到这个问题的最终解的中间步 骤是： 
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In | y \ = at ~\~ C 


其中， C 是积分得到的常数。 

e ^\y\ — 

3 ；二士/’ 〆 ^ 

当 f = 0,我们可以得到> =±，，加是因变量的初始条件。因此，方程 1. 1的 
解可以表示成方程 2. 4。这个解称为这个微分方程的“通 解”： 

y = yoe a, [2. 4] 

一般情况下，当我们给出一个因变量的微分方程时，也会给出它的初始条件。 
如前所述，因变量的微分方程和其初值一并称为“初值问题”。一旦得到如方程 
2.4 这样的解和^的初值，则可以得到这个微分方程的“特定解”。这个特定解 
将给出一个方程，能得到因变量在任何时点的值。 

如微分方程 dy/dt = Zy, 且当 f = 0时，： y 的值为 ()• 1。由于我们给出了一 
个微分方程及其初始条件，因此这是个初值问题。首先需要得到微分方程的通 
解，即， 

y = yoe 3 ' [2. 5] 

由于当/ = 0时，^ = 0. 1，所以我们可以把这些值代入方程 2. 5获得中间步骤 
0 . 1=3/。/，即 0.1 = 因此，微分方程的特定解是 y = 0. 1#。从这个特定解 
可以很容易看出方程 1. 1给出的微分方程用于模拟指数增长的原因，即当时间 
从0增加到无限大时， y 值成指数增加，如图 2. 1 U = 3) 所示。这类图称为一个 
“时间序列”，因为因变量的值和时间分别呈现在: V 轴和 x 轴。一般把时间设为 
x 轴，但这并不是硬性要求。如时间序列图中所示，因变量的值可以通过把自变 
量^的值代人微分方程的特定解得到。 

从图 2. 1可以看出，变量 y 的增长率(办/必)随时间的增加而增长(变 量 ; y 
的值也增长），这就意味着 d 的二阶导数是正的。如果没有受到干预，这个微分 
方程存在潜在的爆炸特性，这也是托马斯 • 马尔萨斯对人口增长如此关注的原 
因。增长率与因变量大小成比例的情形称为经历“正反馈” （ Crosby ， 1987)， 
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图 2.1 指数增长 

这是因为因变量的增加反馈到系统里，从而引起这个变量附加的增长，导致之 
前的增长率增加。 

指数衰减 

指数衰减和指数增长相类似，仅有的区别在于，方程 1. 1中的参数 a 是负 
值。这类动态过程非常适宜模拟物质的衰变率与其质量成比例的现象。这种 
动态过程的经典例子之一是放射性物质的半衰期，而许多社会现象也呈现出这 
种衰减特性。实际上，研究社会系统的理论家们 （ Brown , 2008； Cortes el al ., 
1974) 都知道，“社会记忆”的概念与半衰期很相似。一般情况下，任何系统本质 
上都是动态变化的，它们根据不同的投人得到不同的产出。当对一个系统投人 
时，我们自然会问.这个投人对系统的影响会持续多久，从而想得到这个系统的 
半衰期。一般而言，大部分发生的事件对相关的社会系统的影响最终都会消 
失。例如.突然爆发的暴乱都会慢慢消失，丑闻开始会引起广大媒体的关注，但 
最终也会从公众的意识中慢慢消去，许多疾病（如流感）能感染很多群体，但也 
最终会消逝。更具体的例子如，普齐沃斯奇 （1975) 关于人们对选举不稳定的系 
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统记忆、布朗 （1997: 第7章)对国会流动圈的系统记忆研究。注意到系统记忆同 
时适用于微分方程和差分方程是非常有用的。 

指数衰减的时间序列图如图 2. 2所示。在这个图中，方程 1.1 中的参数^ 
的值为_3。这个图的初值为> =1.8,其半衰期是初值的一半消失时的时间， 
即当 : y = 0. 9时的时间。 



图 2. 2指数衰减 


学习曲线和非交互性扩散 


当执行一项新任务的时候，一般开始的时候，工作效率可能比较低。例如， 
可能会遇到需要别人指导的无法预期的情形。但是，当任务继续进行时，工作 
人员将变得更熟练。首先，这个工作人员从培训中获益，但当工作人员越来越 
熟悉工作参数时，附加的培训产生的收益也越来越少。因此，这个工作人员将 
达到完成这个任务的效率的顶峰。模拟这个过程所得到的模型常常称为“学习 
曲线”，因为心理学家使用模拟这个动态过程的函数来描述经验或培训与工作 
效率之间的关系。一个人的工作经验或受到的培训越多，那么，这个人的工作 
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效率也越高。效率随着时间的增加将趋近于一个上限。 

请考虑另一个具有相似动态过程的例子。当新闻开始报道一个事件时，许 
多人会知道这件事，因为最初没有人知道。但随着时间的推移，初次得知这个 
新闻的人越来越少，因为越来越少的人不知道这件事。因此，这个新闻传播的 
速度和不知道它的人数呈比例。这也是一个学习过程，在这个过程中，学习是 
根据总体中有多少人获知这个新闻传播的信息来测量的。最终，如果媒体继续 
播放一则新闻，则越来越少的人不知道这则新闻。我们可以说,不知道这则新 
闻的人数随着时间的变化趋近于一个上限，这则新闻的持续传播将对初次获悉 
这则新闻的人数呈递减的效应。 

这类过程通常用方程 2. 6这样的微分方程来模拟。有时，不存在相互作用 
成分的扩散模型也可用这个方式来模拟 ( Coleman ， 1964:43)。在学习模型中， 
因变量^表示具有某种特征的人群的数量，例如获悉某则新闻的 人数; 增长过 
程的上限可以用 U 表示 ； U — y 表示不具有这种特征的 人数; 最后，参数 U 表示 
没有这种特征的人变成具有这种特征的人的 速率： 


dy / dt — a ( U - y ) 


[ 2 . 6 ] 


方程 2. 6通过分离变量法可以 写成: 


[1/( L 7 — y)^dy = adt 


对方程 2. 6两边同时积分， 


得到: 


J [1 /(U — y)~]dy = adt 
— In I U 一 y I = a / + C 


其中， C 是积分得到的常数。 

注意，由于^不可能超过它的上限，因此 U — ^永远是 正值。 这并不是一个 
算术结果，而是我们实际问题的特定结果。因此，我们可以删除这个绝对值符 
号，方程变成： 
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ln ( L / — 3O = at -\~C 


ln(U —: y ) = — 过 — C 


进而 得到： 


U — y = e ~ at e ~ 


对上式再做变换，可以 得到： 


y = U — 

由于'是常数，所以我们可以把上式写成模型的通解形式，如方程 2. 7 所示： 


y = U — Be ~ 


[2.7] 


方程 2. 7是学习曲线的函数形式。注意，当 r = 0 时随着时间 
的推移(如？变得越来越大）， Be- 4 将逐渐趋近于0 ,同时也趋近于?7。 

这个过程的时间序列图如图 2 . 3所示。在该图中 ， a = 3, U = l . 6, y 0 = 
0. 1。注意看因变量 J 的值如何随着时间推移趋近于 U 值。我们可以说,3/随时 
间渐渐趋近于其上限 U ， 即随着^趋近于其上限值 U ， ^与 U 之间的距离越来 



图 2.3 学习曲线 
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越小，但^永远不能达到其上限 U 。 这个上限也称为^的“均衡值”，因为它是 j 
停止变化时候的值。也就是说，当 y U 时， dyldt = 0,这也可以从方程 2. 6 
中看出。 

从图 2. 3可以看出，变量 j 的增长率办 M 随着时间（或 J 值）的增加而减 
少，这就意味着 d 的二阶导数是负值。这种情形称为经历“负反馈 ”（ Cr 0S by ， 
1987) ，即因变量的增加导致其增加的速率减少。因变量仍在增加（由于 dyldt 
是正值），但其增加的速度减缓。 


logistic 曲线 

logistic 曲线是社会科学中最常用的模型之一。它融合了学习曲线中趋近 
于极值的指数增长和衰减两种特征。 logistic 过程一开始呈现正反馈系统的快 
速增长特征，之后呈现负反馈系统的减速增长特征。 

logistic 模型的形式种类较多，最常见的如方程 2 . 8 所示： 

dy /dt = ay(XJ 一 3 /) [2.8] 

在方程 2. 8中， L ； 与在学习曲线(图 2. 3) 中一样是 > 的上限。当 y 值相对 U 较 
小时，一 ^较大，此时呈指数增长，正反馈占 主导。 但当 J 值趋近于 U 时， 
一3；趋近于0,此时负反馈占主导。 

可以用 logistic 模型来描述的社会过程常常包括有某种特征的人群和没有 
这种特征的人群之间的相互作用。例如,普齐沃斯奇和索尔斯 （1971) 利用 lo ¬ 
gistic 方程来描述支持和不支持左翼党派的两个人群之间的相互 作用; 模拟传 
染病的科学家也常用 logistic 模型来描述疾病的传染过程及染病人群和未染病 
人群之间的相互影响。这种 logistic 过程也可以在其他情形中岀现。例如，布 
朗 （1995 a : 第6 章、; 1994) 使用 logistic 模型来描述导致环境破坏的过程。 

方程 2 . 8 是可分离的，将其积分 得到： 

[2.9] 

要求解方程 2. 9,可以先把被积函数变换成如下 形式： 
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1 = 1 / U 1 ( U — y + y \ 

y(U — y) U ^y(U — y)) U 、 y(U — y)' 

=1 ( U~y I _ 1 ) = 丄 f 丄 n _ I 

U 、 y(U —: v) y(U — y) ’ U ^ y (U - 3；) 

因此，方程 2. 9 可以 写成： 

\ M ^ + W ^ 7^ dy = ij \ ^ dy + h \ 

两边积分 得到： 

告 In I ：y |— 士 In I U — y \ = at+C 

将方程进行变换 得到： 


由于且 V 是正值，方程 2.10 中的绝对值符号可以去掉。令方程 2. 10的 
两边同时乘以 U ， 并求 e 的幂， 得到： 




U-y 


U ln U~y 


at+C 


[ 2 . 10 ] 


— ^- = e^' = e^ 1 = Me UM 
U — y 

其中，是常数。 

求解因变量^ 得到： 

= MLJe Uat = U 
y ~~ T + mD ? 17 _ (l/We^ + l 

由于 1 /M 是常数，令 K = 1/ M , 那么方程 2. 11可以 写成: 

= U 
y _ l + Ke ^ 1 


[ 2 . 11 ] 


[ 2 . 12 ] 


方程 2. 12是 logistic 模型通解的最终形式。 

从上文可以看出，得到 logistic 曲线的通解比得到指数增长模型或学习曲 
线模型的通解更难。这就是微分方程的特点，当模型变得更复杂时，求得模型 
的分析解将更困难，而且可能不能求解。基于这个原因，我们经常使用数值方 
法来求解微分方程模型。 
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logistic 模型(方程 2. 8) 的时间序列图如图 2. 4所不。这个图可以通过方程 
2. 12或数值方法来计算变量的值。图 2. 4 的参数和图 2.3 相同 ： a = 3, U = 
1 .6, y 0 = 0. 1。 

比较图 2. 3和图 2. 4可以发现， logistic 模型在增长的初始阶段与指数增长 
模型很类似。学习曲线和 logistic 曲线都随时间的推移趋近于上限 U ， 这是两个 
模型的均衡点，但 logistic 模型具有更复杂的动态结构。在 logistic 模型的时间 
序列图起始阶段，正反馈占主导，此时模型的二阶导数是正值.这意味着，模型 
的一阶导数(如方程 2. 8的模型)随时间(或^值)的增加而增长。但其二阶导数 
很快变成负值，此时负反馈占主导，一阶导数随时间增加而减少。^值越趋近于 
其上限值 U ， 其一阶导数就越趋近于0。图 2. 4中，曲线的二阶导数为0的点称 
为“折点”，这个点把模型的正反馈和负反馈区分开来。 



0.00 0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00 

时间 

图 2. 4 logistic 曲线 


社会学实例 


科尔曼、卡茨 （ Katz ) 和门泽尔 （ Merkel ) (1957) 研究通过医生开处方把一种 
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新药引进社区的例子，是解释一阶微分方程特征的非常好的实例 （ Coleman ， 
1964:43^46) 。他们的研究兴趣主要在于，医生怎么把新药介绍给他们的病人。 
这个模型的关键变量是医生是否融入了医生群体，通过在社区的抽样调查中， 
某医生被其他医生视为朋友或同事的计数来测量。在这个变量上取得较高分 
的医生被视为“融入”，而取得较低分的医生被视为“孤立”。非常关键的是，融 
入的医生比孤立的医生平均早4个月把这种药物介绍给病人。 

有两种假设可以解释这种现象。第一种假设是融人的医生的专业竞争力 
更强，即他们更了解医学的最新进展。因此，导致他们融人的因素(专业竞争力 
和同行的尊敬)和他们采用新药的因素相同。由于他们更融入，医生更可能了 
解新药。第二种假设是他们经常和同行交流，因此能更快从同行那里了解到新 
药的使用。而孤立的医生只有当药品销售员推销上门时，才可能知道新药。 

为了检验这两种假设，我们采用了两种模 型:第 一个是 logistic 模型，如方 
程 2. 8的 形式; 第二种是学习模型(没有交互扩散作用），如方程 2. 6的形式。当 
这些模型用来比较医生开始开新药预计花费的时间的数据时， logistic 模型更好 
地描述了融入医生的行为，而学习模型更好地描述了孤立医生的行为。基于这 
个原因，我们拒绝第一个假设，接受第二个假设。融入医生比孤立医生更快使 
用新药并不是因为融人医生的专业竞争力更强，而是他们更经常和同行交流， 
因此通过信息交流的渗透过程获得新药的信息。在分析这个例子中的融入医 
生时，获得信息和没有获得信息的交互作用是 logistic 模型优于学习模型的主 
要之处。学习曲线之所以比 logistic 模型更好地模拟了孤立医生，是由于同行 
之间的交互作用并不影响这些医生引进新药的时间。 

求解微分方程的数值方法 

求解微分方程的数值方法存在了很长一段时间，但其广泛应用主要归功于 
计算机的应用。近些年，新数值方法的发展也取得了很大进展，很多方法比老 
的数值方法更有效。 Runge - Kutta 方法一直以来都是求微分方程数值解的主要 
方法。虽然这种方法很老，但仍很实用，并可以作为任何有兴趣用数值方法求 
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解微分方程的读者的学习起点。 

本部分将介绍3种 Runge - Kutta 方法： （ 1 ) Euler 法； （ 2 ) Heun 法； （ 3 ) 四次 
Runge~Kutta 法 。 Euler 法实际上是一次 Runge~KuUa 法 ， Heun 法是二次 
Rungc ~ Kutta 法。 Euler 法和 Heun 法实际上很少用，因为四次 Runge ~ Kutta 法 
更精确，且更容易应用。但了解 Euler 法和 Heun 法可以帮助解释 Runge-Kutta 
法的工作原理，这里的介绍主要起启发作用。 

许多社会科学家可能发现，四次 Rung ^ Kutta 法几乎是求解所有微分方程 
的完美方法。从这种意义上讲，这些科学家可能不需要使用近来新的数值方法 
来求解微分方程。但是，一些科学家可能仍然发现最新的方法更有趣，或更能 
满足他们的需要。我们首先用胡塞因 • 科洽克 （HUseyin Ko C ak ) 编写的计算机 
程序 “ Phaser ”( www . phaser . com ) 来介绍这些方法。从实际的角度来讲，除了 
理解怎么用四次 Runge - Kutta 法解决微分方程外，许多科学家不需要再进一步 
了解其他方法(在介绍微分方程的许多处理方法时，都会讨论 Rimgc - Kmta 法 
的重要性，具体可参见 Blanchard et al . ,2006 ； Boyce &■ DiPrima , 1977: 第 8 章； 
Kopak , 1989)。 


Euler 法 


当使用数值积分 Runge ^ Kmta 法时，要得到因变量的值不需要得到微分方 
程的分析解。当微分方程组中，变量之间相互交互时, Runge - Kutta 法也能很容 
易求解。 Euler 法是所有 Runge - Kutta 法中最简单的一种，很容易解释。 

直观地讲，基本的理念是微分方程(如方程 1. 1、方程 2. 6或方程 2. 8) 自身 
是因变量随时间的导数。作为导数，一旦我们提供方程右侧的参数值，就知道 
因变量的值是增加还是减少。 Euler 法是当导数为正值时，微增因变量的值来 
找到因变量的下一个值。当导数为负值时，因变量的值是下降的，因此 Euler 法 
是微减因变量的值来得到因变量的下一个值。可以看出，其原理比较简 单：当 
导数为正值时，增加％当导数为负值时，减少％ 

具体计算的机制也没有比原理难多少。我们需要找到一种方法来从点 
U ， 30 到点(/_， 3W ,)。 首先，我们需要找到一种方法在时间轴上从/到 
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为了达到这个目的，我们使用一个微增量沿着时间轴“爬行”。 Euler 法中普遍 
使用的微增量是0.01。如果微增量更小，则得到的精度将更高。后面我们将看 
到，其他的 Runge-Kutta 法使用的微增量更大。 Euler 法使用的微增量比其他 
的小的原因主要在于， Euler 法的精确度更低，因此每次移动的量也更小。这个 
微增量也称为“步长”，我们可以把它想象成当我们沿着时间轴移动时，每次移 
动的距离。因此，从时点0到时点1，如果每次只移动 0. 01，则需要移动100步。 
这可以用公式 in™ = « + △〖来表示，其中，表示步长。 

现在我们开始计算。沿着时间轴的每一步的移动，我们需要计算因变量^ 
的值。我们根据给定的因变量的现值计算因变量的下一个值。首先从^的初 
始值开始，我们将根据7的导数的符号(如^是增加还是减少)来获得^的下一 
个值。从这个值出发，沿着时间轴再往下走一步，获得^的另一个值，这样一直 
往下走。我们一直重复这个过程，直到时间序列满足我们的要求。这明显需要 
通过包括“循环”路径的计算机程序来计算。“循环”是一种可以一遍又一遍重 
复同一过程的方法。每一次循环可以得到的一个新值，保存为下一步使用， 
然后再重复一次循环，又可以得到一个 y 值，再一遍又一遍地重复。 

Euler 方法的公式如方程 2. 13 所示： 


3W = y + h(dy / dt ) [2. 13] 

方程 2. 13 包含在计算因变量 j 值的程序的循环路径中。在方程 2. 13中，右侧 
的 y 值是上次循环获得的 y 值是本次循环中^的新值，它将在下次循环中 
作为 现值; 参数 A 是步长。这里，我们用步长乘以导数(这是原始模型，如方程 
1. 1所示），并加上 y 的现值来得到 y 的新值。当我们计算得到 y 的新值时，需 
要记住保存 J 的现值和新值，然后把^的新值设为^的现值，以便循环能够实 
现。我们也需要保存时间的现值，这是时间的上一个值加上一个步长&编写 
这种计算的编码(用 SAS 编写，也可以用其他程序来写)如下 所示： 

DATA； 

A=0.3； *参 数值； 

H=0.01； * 步长; 
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Y =0.01； * 因变量 Y 的初始 条件； 

TIME = 0； * 时间的初值； 

DO LOOP = 1 TO 2000； * 循环的开始； 

DERIV = A * Y - t * 微分方程 模型； 

YNEXT = Y + ( H * DERIV ) ； * Euler 法； 

TIME = TIME + H ； * 微增时间； 

OUTPUT ； * 输出循环数据以便能 画图； 

Y = YNEXT ； * 把通过 Euler 法计算得到的新 Y 值设为 Y 值； 

END ； *这 个循环 结束； 

SYMB 0 L 1 COLOR = BLACK V = NONE F = CENTB I = JOIN ； 

RPOC GPLOT ； 

PLOT YNEXT * TIME ； 

TITLE "运用 Euler 方法的时间序列' 

RUN ； 

QUIT ； 

基于直线的斜率是在任何一个时点的模型曲线的切线， Euler 法有一种几 
何解释。模型本身是一个导数，导数的值即切线的斜率。从直线斜率的定义来 
讲，我们可 以说： 


y^--- y = y^~y = j\ t ， y ) [ 2 . 14 ] 

f next t △艺 

方程中的 /( i ， W 是微分方程模型。如果我们变换一下方程 2. 14,可以 得到： 

这就是方程 2. 13给出的 Euler 法公式。一些读者可能会注意到， Euler 法也等 
同于对原始微分方程模型的一阶二项式泰勒近似 (Blanchard et al . ，2006：641； 
Atkinson , 1985:310 — 323)。 

到目前为止，我们应该很清楚为什么 Euler 法得出的结果不精确。因为随 
着时间向前移动每一步， Euler 法都是沿着模型曲线在某点上的切线，而不是沿 
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着模型的曲线前行。步长越大, Euler 法偏离真实曲线的潜在风险越大(这主要 
取决于曲线的弯曲程度）。上一步产生的偏误将累计到这一步，这样，问题会一 
直累积。减少步长能减少这个问题，但最好的解决方法是采用很好的函数来拟 
合。四次 Runge'Kutta 法是在 Euler 法的基础上形成的，它能得出更精确的 
结果。 


Heun 法 


Heun 法有时也称为“改进的 Euler 法”，是二次 Runge-Kutta 法。一些研究 
人员也许会 问：在 实际应用中一般使用 Runge^Kutta 法，为什么还要费周折来 
介绍 Heun 法呢？在这里介绍 Heun 法主要是因为，通过解释二次方法将更有 
利于介绍更高阶的 Rung^Kutta 法的工作原理。我们并不会深人介绍很多细 
节问题，但值得注意的是， Rung^Kutta 法的次数与其误差的特征有关 （Blan- 
card et al. , 2006： 646 — 647 ； Zill, 2005:373 — .374)， 甚至一个二次 Runge-Kutta 
法的精度相对于 Euler 法来说有很大改进。 

Heim 法的基本概念非常简单。在使用 Euler 法时，我们利用微分方程得出 
因变量的值在曲线的特定点上是增加还是减少。因变量的增加量或减少量取 
决于 J 的导数值，即微分方程本身。 Heun 法将给出一个更好地计算因变量的 
增加量和减少量的方法。它先计算^的两个导数，然后求这两个导数的平均 
值，再用这个平均值乘以步长（和 Euler 法的做法一样）得到^的新值。由于 
Heim 法比 Euler 法更精确，所以可以使用更大的步长，从而增加计算的速度。 

更确切地说， Heun 法一开始是应用 Euler 法来计算。也就是说，我们使用 
Euler 法根据^的现值来得到 J 的新值。这意味着，我们把 Euler 法应用到点 
(Z。，yo)。 然后，我们需要使用 Euler 法使用的导数值，因此需要把它保存，记为 
m 。 现在我们有点（《。，加）和 U 觀 t ，3W)， 第二个点是应用 Euler 法得到的。这 
次，我们再使用 Euler 法，但这次是应用到点（^， 3W)。 此时，我们也需要使 
用这一步得到的导数值，保存并记 为〃。 最后，我们回到原点 Q。，>), 再次使用 
Euler 法，但这次，我们使用饥和《的平均值作为导数值。因此，我们通过下式 
得到^的新 值： 



微分 方程:一种建 模方法 


191 


^next = y + h [ m ^ n ) [2. 15] 

其中 ^ 是步长， [( m + n )/2] 是从两个不同的 >> 计算得到的两个导数的平均值， 
第二个^值是根据原始的 值使用 Euler 法得到的。 

Heun 法的几何学原理与应用梯形法则来近似估计曲线下面的面积类似， 
感兴趣的读者可以在布兰查德等人 （2006:642—644) 的文献中找到相关的处理 
方法。 Heim 法的另一种几何学解释是，开始时用 Euler 法计算得到的一阶导数 
m 产生的误差，可以由第二次应用 Euler 法得到的导数《弥补。这些导数 ( m 和 
n ) 的均值用于方程 2. 15时，将得到一个更好的 j 值。读者可以在齐尔 （ Zill , 
2005:370— 371) 的论述中找到关于这个问题的更详细的讨论。从这个推理中可 
以看出，方程 2. 15中的导数 n 是用来纠正使用导数 W 带来的误差。这也是有 
时称 Heun 法为“预测修正法”的原因。一些读者也注意到， Heun 法类似于原始 
微分方程模型的二次泰勒展式的应用 ( Zill ， 2005:374)。 


四次 Runge-Kutta 模型 


四次 Runge ^ Kutta 法是求解一阶微分方程的精确方法，而且是大部分时候 
的主要使用方法。当 Heim 法通过使用两个斜率的均值来得到因变量的值时， 
四次 Rung ^ Kutta 法使用4个斜率的加权平均值来得到因变量的值。这个方法 
常简写成 “ RK 4”。 

RK 4 法的机制非常简单，但比 Heun 法的计算处理更麻烦。 RK 4 法最常用 
的公式 如下： 

3 W = y~\~ (A/6)( 々 i +2 走 2 + 2 是 3 + 々 4 ) 

其中， 

k \ = fit , y ) 

k 2 = J{_t + h / 2 , y +( h / 2 ) k ^ 
k 3 = At + h / 2 , y + ( h / 2 ) k 2 l 
ki = /[/ + h , y -\~ hki ~\ 
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请注意， h 和匕的值在离原始起点 U ，>) 半步长处计算得到 ，怂 值在起点处 
计算得到， t 值在离起点一步长处计算得到。 RK 4 法的几何学解释可以参考布 
兰查德等人 (2006:650 — 651) 的研究。简言之，从上面的方程可以看岀， 3 V . X , 值 
是使用类似于 Euler 法的方法计算得到的，两者的差别在于并不用一个导数，而 
是用4个导数，且中间两个导数的权重加倍(总权数为6，这就是为什么我们除 
以6得到均值)。我们除了使用4个导数的加权平均数，还把这个均值乘以步长 
I 然后把这个乘积和 J 的原始值相加得到^的新值。读者应该注意到，在一些 
课本中， RK 4 法的公式使用符号、 rh 和，而不是使用 々，到 。 


本章小结 


本章主要介绍了一阶微分方程。首先介绍了求解线性一阶微分方程分析 
解的方法，其重点放在分离变量法的介绍。当微分方程可以通过分离变量法求 
解时，这是一个非常简单直接的获得方程的方法，通过这个方程可以得到 I 和^ 
的值，从而可以用于画图或分析。当分离变量法不适用时，我们可以使用积分 
的数值方法。在所有的一阶微分方程中，我们介绍了 4种“理想类型”:（1)指数 
增长； （2) 指数 衰减； （3) 学习曲线和非交互 扩散； （4) bgi S tic 曲线。我们列举了 
一个经典的社会学例子来比较前面的第三类和第四类微分方程。本章接下来 
介绍了 3种求解微分方程的数值方法。 Euler 和 Heun 法用来帮助介绍最常用 
的四次 Runge ~ Kutta 法。还存在许多其他的数值方法，但四次 Runge - Kutta 法 
作为一个好的应用起点，适用于很多场合。数值方法特别常用，因为它们几乎 
适用于任何真实世界的情形，不管是线性情形还是非线性情形。不定积分的分 
析法一般不适用于大部分非线性模型。当遇到非常复杂(不正常）的情形时，即 
当微分方程既不能通过分析法，也不能通过数值方法求解时，我们必须认真研 
究这个方程的数学形式。 



第 3 章 I 一阶微分方程组 


简单微分方程只有一个因变量。但在这个世界上，很少有事情能孤立地研 
究。 A 影响 B ， B 影响 A (或 C ) 等也很正常。基于这个原因，我们研究方程组。 
在微分方程的应用中，方程组是最重要的领域之一。本章主要研究一阶微分方 
程组。这是微分方程组的一个重要类型，因为高阶非自治微分方程可以表示成 
一阶微分方程组。实际上，一阶微分方程组可以用于数值分析高阶微分方程 
组，如用四次 Run g e ~ K u tt a ( RK 4) 法。因此，一阶微分方程对研究一般微分方程 
的应用非常有用。 

有两种一阶微分方程 组:线 性和非线性。我们能用定性分析数值法来分析 
线性方程组。分析法包括找到微分方程组的确切解，这类似于我们使用分离变 
量法求解一些简单的微分方程。然而，非线性方程常用定性数值法来分析，因 
为大部分非线性方程组很难得到确切的通解。分析法也同样适用于线性方程， 
因为这些方法能帮助我们了解这些系统的行为类型，这些行为可能变化较大。 
需要注意的是，非线性系统的行为模式和线性系统非常类似，因此，了解线性系 
统的行为特征能帮助我们了解非线性系统。 

因为定性分析方法既适用于线性方程，也适用于非线性方程，所以这些方 
法被广泛用于研究所有的微分方程组。而且，在社会科学中，构建社会科学动 
态模型时，经常要设定非线性成分。例如，当一个人群和另一个人群相互影响 
时(如工作的人和没有工作的人接触），则在模型设定时需要加上非线性部分 
(Przeworski Soares , 1971 ； Przeworski Sprague , 1986)。 本章的焦点是 
用于研究一阶微分方程组的定性数值方法。 
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猎食模型 

洛特卡和沃尔泰拉的猎食模型是介绍一阶微分方程组基本概念的最合适 
的方程组 （Hirsch Smale , 1974： 258— 265； Kocak , 1989： 121—122； May , 
1974)。 虽然模型是有关群体生物学的，但模型中的线性和非线性部分广泛应 
用在许多社会科学领域，建议读者仔细研究这个模型。关于这个模型的介绍， 
我将保持群体生物学的解释，虽然我在后面会把这个模型的讨论扩展到人类社 
会学实例中。 

猎食模型的基本概念是存在两个相互猎食的群体。举一个现实的例子，当 
有食物时，兔子生小兔子，兔子数量增加。当兔子数量增加时，狐狸会有更多食 
物吃，这又导致狐狸数量增加。最后，狐狸数量增加太多以至于兔子数量开始 
减少，而狐狸由于食物（兔子）减少而饿死。当狐狸数量减少时，兔子数量的增 
加就不受什么限制了，因此兔子数量又开始增加，从而狐狸数量开始增加，就这 
样一直循环下去。 

这是个封闭系统的例子，从某种意义上讲，影响这个系统的所有因素都在 
这个系统内。没有外在因素会影响狐狸和兔子的数量。一些理论学家也称这 
个系统为“孤立系统”。在物理学中，“封闭系统”和“孤立系统”这两个术语是存 
在差异的。例如，封闭系统可以和外界交换热和功，但孤立系统不能。两种系 
统都不能和外界进行物质交换。在这里，这种差异并不会影响我们的结果，这 
两个概念可以交换使用。开放系统是指，外在因素能影响变量的动态过程，在 
这个例子中，数量可能由于这些因素增加或减少。 

我们把兔子数量记为 X ，狐狸数量记为 Y ， 则这种猎食关系可以通过方程 
3. 1和方程 3. 2来表 7 K : 


dX/dt = aX - bXY - mX 2 [3. 1] 

dY/dt = cXY - eY - nY 2 [3. 2] 


其中，《、6、 c 、 e 、 《、 W 是常数。这两个方程组成了两个非线性一阶微分方程组 
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的相互依存的系统。这个方程组是非线性的，因为两个方程中都存在交互项和 
二次项(如 XV 、乂 2 和^ 2 )。这两个方程又是互为条件的，因为变量 x 和 y 同 
时出现在两个方程中，也就意味着317沿同时依赖于 x 和 V % dX / 出也一样。 
洛特卡 （1925) 和沃尔泰拉（1930、 1931) 的经典猎食模型有许多一般形式，下面 
将介绍方程参数 w 和 w 为0的方程形式。 

在上面的方程中, X 和 y 都随时间发生变化。在经典的猎食模型中，兔子 
数量呈指数增长 ( aX )， 直到它们被狐狸吃掉(一 WCY ) 或数量增加到食物能支持 
的极限(一 mX 2 )。 只有当有兔子吃的时候，狐狸数量才能增长 ( cXY )。 狐狸数 
量的减少是由于自然因素（一 eY ) 或由于增长过度而没有足够的兔子可以吃（一 

«y 2 ) 0 

猎食模型和方程 2. 8描述的 logistic 模型的设定之间的共性值得我们注意。 
当没有狐狸时，方程 3. 1可以 写成： 

dX/dt = X(a — mX ) [3.3] 

方程 3. 3和方程 2. 8之间的联系可以从下面的数学推导中看 出来： 
dX/dt = aX[l — ( w / a ) X ] 
dX/dt — a (^ m / a ) X \_ a/m — X ] 
clX / dt = rnX [ U — X ] 

其中 ， U = aim 。 然而，饱和的猎食模型通过添加乘积项 XY 来说明两个物种之 
间的交互作用，这就是该模型与简单 logistic 模型的主要区别。 

同时需要注意的是，方程 3. 3有一个 logistic 上限 aim 。 这是通过把方程 
3. 3设为 0( 当 X 达到极限时，其导数的值为0)，然后求解 X 得到的。同样，当 
没有兔子时，方程 3. 2显示狐狸数量的下限是 0( 因为增长仅发生于存在兔子的 
时候）。这些也称为因变量的“均衡值”，下面将进行更深入的讨论。 

在一般情况下，介绍猎食模型时，都会忽略方程 3. 1和方程 3.2 中由于拥 
挤和资源不足产生的极限项 ( mx 2 和 《 y z )， 从而主要关注两种人群是怎样交 
互作用的。其中，一种表示这两个变量之间的交互作用的方式是时间序列 
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0 1 2 3 4 5 6 7 8 9 10 11 12 13 

时间 

图 3. 2受到资源限制的猎食模型时间序列图 


0 

0 100 200 300 400 500 600 700 

时间 

图 3.1 没有资源限制的猎食模型时间序列图 


图，如图 3. 1所示。在这个图中，纵轴的刻度是任意的，把数量设成几百个会更 
真实些。画这个图时，参数 m 和〃都设为0。这里需要注意，狐狸根据兔子的总 
数来“追赶”兔子，狐狸数量的变化总是根据兔子数量的变化来调整，并滞后于 
兔子数量的变化。 
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根据由于拥挤和资源有限等因素引起的限制项 （讲久 2 和的饱和猎 
食模型得到的时间序列图呈现出完全不同的特征，如图 3. 2所示。请注意.在 
这个时间序列图中，猎食者和猎物的数量最后都稳定在两个均衡值，在本书 
中记为， Y - ) 0 


相位图 


当处理微分方程组时，我们一般会想知道，一个变量是怎么随着另一个变 
量变化的。从某种意义上讲，时间在这里起了妨碍作用。不过，我们可以用方 
程 3. 1除以方程 3. 2来消除时间项，如方程 3. 4 所示： 

dX = aX-bXY-mX 2 「 ] 

dY ~ cXY-eY-nY 2 L J 

用方程 3. 4 可以得到不同的分析，但更常见的情形是通过图形技术来研究 
没有时间轴时，系统变 M 之间的联合行为。这些技术中最基本的一种是系统的 
相位图。我们使用相位图来画不包括时间变量时，变量 X 和 Y 之间的序列动态 
图。图 3. 3描述了一个系统的相位图，它与图 3. 1相对应，参数 w 和 n 都设为 
0,即不存在拥挤和资源限制的情形。 

在图 3. 3中，不存在时间轴。更确切地讲，我们现在显现出来的是 X 和 Y 
之间独立于时间的系列变化。这个图中的椭圆曲线称为“轨迹”，这个轨迹存在 
于两个变量的系统“相位空间”中。如果把时间包括在内，则要加人第三个轴， 
这个轴垂直于纸面向外。这时轨迹将像火箭启动时，烟的轨迹那样螺旋式旋出 
纸面，而不是像图 3. 3所展示的平面曲线。 

注意图 3. 3轨迹的摇摆特征。轨迹的椭圆轨道的位置和大小由起始条件决 
定，在这个图中，（ X 。，7。）= (1, 0.2)。除了唯一的一点例外，模型不管从系统 
的哪里开始起步，猎食者和猎物数量的循环轨迹都遵循相同的路径。当然，这 
是假设在一个纯确定性世界中，在现实中是不可能出现的。在一般情况下，在 
这个路径上会加人随机性的因素，但模型中潜在的确定性系统的循环特征保持 
不变。 



运动方向 



0.2 0.4 0.6 0.8 1.0 1.2 1. 


猎物群体 

图 3. 3没有资源限制的猎食模型的相位图 

如图 3. 3所示的椭圆轨迹的唯一一处例外是一个“均衡”点。均衡点是因变 
量停止发生变化的地方，也是导数(方程 3. 1和方程 3. 2) 等于0的地方。 

在图 3. 3中，均衡点落在椭圆轨迹的中间某处，我们可以通过同时求解这两 
个方程得到 X 和 Y 的坐标。由于图 3.3 中，参数/^和《都设为0,因此， 

Q = aX - bXY 
0 = cXY-eY 

这就得到了公式, Y *) = ( e / c , a /6)。 位于椭圆轨迹内部的均衡点称为“中 
心”，这种均衡点是稳定的(下面将讨论这个特征）。为了得到图 3. 3,把上式的 
参数设为 ： a = l , 6=1 ， c = 3, e = 1 0 因此，这个系统的均衡点是 （1/3, 1)。这 
个系统也有另一个均衡点 (0, 0) ，但这个点没有多大意义。 

除了确定原始模型的参数，处理任何微分方程系统最重要的两点是:（1)确 
定系统的均 衡点； （2) 确定这个均衡点是否稳定。图 3. 3中有一个很明确的均衡 
点，因此我们完成了第一个目标。关于第二个目标，我们会注意到，一个不稳定 
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的均衡点往往排斥轨迹线。排斥程度可快可慢，慢则慢慢漂离均衡点。但如果 
均衡点附近的轨迹并不随时间远离，则这个均衡点是稳定的。稳定的均衡点又 
可分为引力均衡点和中立均衡点。在相位图中，引力均衡点把轨迹引向自己， 
中立均衡点既不排斥也不吸引轨迹。图 3. 3的向量, y *) = { e / c , aim 
中立均衡点。如果将图 3. 3所示的系统的初始条件设为点 （ e / f ， 则这个 
系统将不会变，而且所有的值都会永远固定在这个点上，但任何远离这个点的 
随机扰动都会导致前面所示的波动。由于这样的波动并不会持续且系统地远 
离这个均衡点，所以这个均衡点是稳定的。 


0.20 
0. 15 
0. 10 

0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 

猎物群体 

图 3. 4存在资源限制的猎食模型相位图 

如果我们把猎食模型中的参数 w 和》设定为非0值，即在模型中加入拥挤和 
资源限制项，则均衡点会变成既是稳定点又是引力点。这种情形如图 3. 4中的相 
位图所示。在这个图中，轨迹起始于图的右下角，沿着一条曲线渐渐靠近均衡点。 
在相位空间内，受稳定均衡点的引力影响的区域称为引力点的“场域”。在这张 
图中，所有能观测到的相位区域都在引力点的场域中。图 3. 4中的参数值设为 
a =1， b =\, c = 3, ?= 1, = 1. 5, n = 0. 5, 初始条件设为 X = 1, Y = 0. 1 0 

这个系统的均衡值是通过设定方程 3. 1 和方程 3. 2同时为0时得到的； T 和 
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的值。此时， X* = (4+OW )/(c6+7W2 ) 和 y =(02 — €m)/(6f +7727? ) 为这 
个系统的均衡点。在图 3. 4的例子中， （X* , Y*) = (0.4, 0.4)。 

向量场域和方向场域图 

当图 3. 3和图 3. 4所示的相位图有助于呈现一个或多个轨迹如何在模型 
的相位空间中形成时，有人可能会问，轨迹通过相位空间的不同区域时会在 
哪里消失？我们可以通过向量场域图或方向场域图来回答这个问题。这两种 
图是密切相关的。要建立一个二维系统的向量场域图，我们必须在感兴趣的 
区域内画一些网格点。根据理论，你会得到与网格内的每个点相交叉的直线 
斜率 WXAA 0。 这个斜率和前面讨论的猎食模型（方程 3. 4) 中的斜率相同。 
然后，以每个网格点作为起点，沿着斜率的方向画一条直线（常常画带箭头的 
直线）。直线的长度取决于系统方程在相位空间内所选点的值，向量的大小 
为 \{ dX / dt , dY / dt ) 0 

画一个向量场域时，每个向量有两个组成部分，即 dX / 出和 jy / 出。每个 
网格点的导数就是用来画向量从网格点到终点的值（即向量的大小）。为了得 
到每个向量的终点，你得执行以下步骤： （ 1 ) 把选好要画向量图的每个网格点的 
x 和 y 值代人和 dy / 出 中； （2) 计算 dx/dt 和 dY / 出 的值； （3) 把这些值 
加到每个网格点的 X 和 y 点上。网格点是向量的起始值.向量的终点是起始点 
加上刚才计算得到的替换值。然后，在向量场域内把起点和终点连起来就得到 
了向量。向量的方向可以通过在每条线的终点画个箭头或在每条线的起点画 
个大点(星号)来标识。 

图 3. 5呈现了存在增长和拥挤限制的猎食模型的向量场域图的例子。当用 
SAS 画图 3. 5时，所有这些都由程序自动画好。 Phaser 也是一个画这类图的非 
常有用的程序 (WWW. Phaser , com )。 Phaser 是我常用于建模课的程序，它能生 
成相位图、向量场域图、方向场域图及其他许多图形分析工具。而且，它能实时 
生成这些图，可以通过数字投影仪放到屏幕上，以便学生能看到作图过程。 
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图 3. 5受资源限制的猎食模型向量图 

画向量图时，常常有必要按一定比例改变向量的长度，以防这些向量太长。 
在图 3. 5中，我没有使用一个小于1的比例系数（常常用 0. 45) 来乘以每个向 
量。由于图 3. 5的向量没有乘以一个比例系数，所以有些向量非常大，以至于在 
图中没法画出来。这就是为什么这个图的右上角是空白的。所有这些向量都 
超出了这个图框。为了避免使图看起来太乱，图 3. 5也没有在线的末端标箭头， 
而是在起点用点来表示方向。在这个例子中，由于能看见网格点（用星号表 
示），所以不需要用箭头来表示向量的方向，向量从网格点出发延伸出去。然 
而，即使没有箭头，这个图看起来还是有些乱。向量图最大的用处在于，它能让 
你通过看向量空间中的向量长度来了解轨迹在向量中移动的快慢，但要得到这 
个信息需付出较高的代价。向量一般会相互交叉，所以常常很难把它们分辨 
开。基于这个原因，我们常常使用方向场域图，而不是向量场域图。请注意，在 
m 3.5 中有一块存在小点的区域，这就是下面要讲的“均衡区”。 

方向场域图通过把所有的向量都设定为相同长度（一般长度较短）来解决 
向量相互交叉的问题。虽然现在不能看出轨迹移动的速度，但能看出轨迹通过 
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图 3. 6受资源限制的猎食模型的方向场域图 

希望读者在画向量场域图时也用 Phaser 构建一个方向场域图，特别是用来 
解释某些问题时。 Phaser 可以自动完成所有的作图工作。然而，当你遇到一些 
情形，需要自己编程画方向场域图时， Phaser 也能帮你了解整个过程。实际上， 
我常常遇到任何已有的画图软件包都不能解决的特殊图形。例如，图 3. 7呈现 
出两个与之前图形不同的特点。这个向量场域图的模型描述了 1964年在美国， 
约翰逊 （ Johnson ) 以压倒性优势战胜戈德华特 （ Goldwater ) 赢得选举的过程 


相位空间的每个点时移动的方向。由于方向场域图更容易看懂，所以方向场域 
图比向量场域图更常用。图 3. 6是一个方向场域图的例子，这张图的方向标识 
比图丄5的更短，其大小通过把 X 和 Y 的导数同时乘以一个比例系数得到。这 
个比例系 数是： 

IddX/dt ) 2 + (dY/dty 

V Length 

其中， “ length ” 是在方向场域图中呈现的向量长度。 
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图 3. 7 1964年美国非南方区域民主党和共和党的党派竞争模型的向量场域图 

请注意，图 3. 7的方向标识与传统的向量场域图或方向场域图不同。我喜 
欢使用 RK 4 法的六次循环(或更少循环)来画方向场域图，而不是直接用导数得 
到向量的大小。用 RK 4 法得到的方向标识会呈现一定的弯曲，而不是直的，这 
样看起来更有美感，而且，这个弯曲特征解决了传统向量场域图中向量之间相 
互交叉的问题。它允许方向标识有不同的长度，因此保存了传统向量场域图中 
轨迹移动速度的信息。虽然这需要重新编程，但确实是一个描绘向量场域图的 
更好的方法。读者在使用时，需要自己决定哪种方法最适合自己的特定应用。 

均衡区和流程囹 


( Brown , 1995 a :73、 1993)。图 3. 7表示南方州之外的区域。由于民主党和共 
和党的选票比例加起来不能大于1,所以，我必须确保删除图形右上角的所有方 
向标识，但没有任何软件有这个功能。 
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现在，我们开始讨论图 3. 5、图 3. 6和图 3. 7中出现的点的图形。每个点的 
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区域是一个“均衡区”。在微分方程的传统研究中，一般很少遇到均衡区，但它 
们在一般微分方程的社会科学应用中经常用到。在物理学和自然科学中也常 
常遇到这种应用，此时主要集中在均衡点及均衡点附近的轨迹动向，这是因为， 
这些系统能够运行足够长(并以足够高的频率），以便这些系统有机会在均衡点 
或其附近稳定下来。然而，社会系统的移动速度远远慢于电子谐振子。在发现 
任何均衡点或其附近的行为之前，社会科学家常常研究系统的产生、增长和消失。 

让我们用一个实例来说明这个问题，如研究一个选举竞争。这个选举从开 
始到结束持续几个月。我们并不能像物理学家观察钟摆来回摆动上千次那样 
观察整个选举过程。实际上，社会系统可能在轨迹达到均衡点附近前就结束 
了。例如，选举开始后，每天根据投票数观察选民的选择偏好。在很多选举中， 
我们常常能看到，根据投票数随时间的变化推测，如果选举再延长几周或几天， 
另一个候选人或党派就可能贏得选举。有时候一个社会系统能达到均衡，但有 
时社会系统还没有达到均衡时，就会遇到一个社会或政治事件打断或终止其动 
态过程的情形。在这些情形中常常发生的情况是，当轨迹接近均衡点时，速度 
会变慢。因此，在许多社会科学情形中，我们不仅需要知道均衡点的位置，而且 
也要知道相位空间中，轨迹变化变慢的区域，这些区域就是均衡区。这对于社 
会科学家非常重要，因为相位空间的轨迹很有可能就在这些均衡区内结束，而 
不是在均衡点处。均衡点一般位于均衡区，但社会现象的发生轨迹可能在达到 
均衡前或在靠近均衡点的均衡区“卡住”或终止。 

我们可以通过求系统（即微分方程）的导数大小（如绝对值）得到均衡区。 
例如，在一个二维系统里，当两个导数 c / x / 出和 jy /出 的大小低于某个特定灵 
敏水平时，相位空间的那个区域就被确定为均衡区。在这些区域内，两个变量 
的变化如此微小，以至于社会系统很可能在继续发展之前就终止或被中断。灵 
敏水平是随意设定的，需要根据具体系统逐个调整，大部分取决于系统在终止 
或中断之前还能发展多久。然而，一般常用的起始值在 0. 1和 0. 01之间。 

还有类似于图 3. 7所示的另一类图形，它能以更真实的方式呈现模型的轨 
迹如何根据数据发生变化。由于社会科学研究的轨迹可能无法达到均衡点，所 
以一般会关注它们真正有多少进展。一个轨迹的实际长度可以根据步长和用 
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RK 4 法的循环次数来决定。当用数据来估计模型参数时，可以解决这些问题， 
具体做法可参见布朗 （1995 a ) 。一旦得到微分方程模型的参数，画一个表示许多 
轨迹在相位空间的路径的“流程图”将非常有用。每条轨迹给定一个真实的初 
始条件，并只有当程序允许时才能移动，这些程序用来估计参数值。图形的初 
始条件是可以随机选择的，只要这些值来自研究的真实数据。图 3. 8表示了一 
个这样的流程图 （ Brown ，1995 a :75) ，该流程图使用了与图 3. 7 —样的模型和参 
数值。读者应该注意到，虽然我用 SAS 来编程并画图 3. 8,但程序 Phaser 也用 
点或点击来画流程图。 

另外，特别值得注意的是，我们可以不限制轨迹的长度来画流程图，还可以 
让轨迹直达均衡点附近的领域，实际上，这是画流程图的非常适用的方法。流 
程图也可以用来表示数据在一个系统中是怎么运行的。当一个系统被某事件 
打断时，如选举日程、革命、暗杀或其他事件，在相位图中画出截断的轨迹就有 
助于描述这个系统对数据的影响程度。 


本章小结 


本章介绍了微分方程系统。大部分研究人员想研究的是系统，而不是单个方 
程模型，因为这是利用微分方程建模的真正优势所在。本章的重点在于使用画图 
技术来分析微分方程系统。主要的画图技术是相位图，这是没有时间轴的序列变 
量的图。大部分相位图把系统均衡值放在图中，然后再画一些穿过相位空间的轨 
迹作为例子。然后，本章介绍了来自群体生物学的一个经典实例，即猎食模型，这 
个模型的要素在很多领域(包括社会科学领域)的系统中都能找到。本章也介绍 
了一些其他分析微分方程系统的画图技术，如向量场域图和方向场域图。在一般 
情况下，方向场域图更受欢迎，因为它看起来更简洁。当社会系统变化过程很慢 
的时候，微分方程系统常常没有机会到达系统轨迹应该达到的均衡点。实际上， 
当轨迹经过均衡点附近的地方时，它们就会“停顿”下来，而均衡点的附近区域称为 
“均衡区”。在相位图中画出均衡区是一种非常有用的识别方法，它可用来识别轨 
迹还没有达到均衡，但由于前行速度太慢，以至于系统最终终止的情形。 



第 4 章 I 一阶系统的经典社会科学实例 


现在，介绍一些经典的微分方程系统将非常有用，这些微分方程系统对社 
会科学起了非常重要的影响。读者会发现，这些系统的许多方面都与之前描述 
的猎食模型很相似。下面的讨论将介绍分析这些系统的一些附加方法。 

更具体地说，本章将介绍3个非常经典的模型，它们对推广微分方程在社会 
科学中的发展和应用起到了非常重要的影响。这3个模 型是: 理查森 （1960) 的 
军备竞赛模型、兰彻斯特 （ Lanchester ，1916) 战斗模型的3个方案、拉波波特 
(1960) 的生产交易模型。研究这些模型能帮助我们更全面深人地理解这些模 
型所描述的潜在过程。我们也能通过这些模型模拟来检验“如果……会怎样?” 
的想法，这些想法能告诉我们更多系统的动态过程。这些探索能增加我们关于 
这些过程的预测性理解。如果我们模拟一些真实生活中不希望发生的事情，如 
失控的军备竞赛或灾难性的全球变暖，就能从模型中推断出一些关键问题，从 
而帮助我们学会如何更有效地管理我们的世界。实际上，直到今天，很多军人 
在调派军队前还是使用兰彻斯特战斗模型来模拟不同的战场情形。模拟是建 
模的最大益处之一。 

微分方程模型的使用并不是万能的。所有的模型都是真实情形的简化。 
有时候，对于特定的情形，简单最小二乘回归模型就足够了。但是，一个动态过 
程的复杂性只有在更准确地描述随时间变化的细节后才能揭示。在这种情形 
下，使用微分方程能使我们更好地模拟实际随时间变化的过程，以便这些研究 
和推断的应用得到最大化。 
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理查森军备竞赛模型 

路易斯 • 弗莱 • 理查森的军备竞赛模型毫无疑问是社会科学中最有名的 
微分方程模型之一。介绍理查森的想法和模型的文献非常多，这里不可能全部 
涉及。但是，基本军备竞赛模型本身对军事竞赛的研究和整个社会来说都是非 
常重要的。实际上，理查森自己也相信他关于国家军事竞争方式的见解可能对 
防止第二次世界大战的爆发非常有用 （ Richardson ，1960: ix )。 模型（两个相互 
依赖的微分方程系统)本身非常简单。为了获得许多有用的结果，我们有可能 
根据分析处理模型。但是，我很少这样做，因为这些处理方法并不是特别适用 
于其他更复杂的模型。然而，我会集中介绍广泛适用于各类常微分方程系统的 
分析方法。 

理查森军备竞赛模型有3个基本假设 ( Richardson ， 1960:13—16)。第一个 
假设是，当一个国家看到其他国家在武器装备上的投入增加时，它也会增加本 
国的武器装备。然而，军费支岀是社会的一项经济负担，较高的军费支出将抑 
制其他支出的增长，这是第二个假设。最后，有很多关于文化或国家领导人的 
抱怨或野心，这些能刺激或抑制军费支出。所有这些可以用下面的方程来 
表: 

etc/dt = ay — mx + g [4. 1] 

dy /dt = bee — ny -\~h [4.2] 

这里有两个国家 X 和 Y 。 和心分别表示两个国家军费支出的变化。 
方程中的 ay 和分别表示其他国家军费支出对本国军费支出的影响， mo •和 
ny 表示本国目前支出的经济负担对其抑制本国将来的军费支出的影响，常数项 
g 和 A 分别表示国家 X 和 Y 的领导人的抱怨和野心。 

这是两个相互线性依赖的方程系统。由于这个系统是线性的，所以在数学 
上很容易操作，其中一些操作有利于重新解释参数的含义。例如，我们可以说， 
方程 4.1 实际上测量了两国军费支出 x 和^的差距(或不均衡程度）。请注意， 
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ay — mx = a(,y 一 mx / a ) , 因此，参数 u 可以解释为军费支出相对于两国军费均衡 
的比例。参数 w / a 是一个帮助确定理想的均衡水平的常数 ( Danby ， 1991: 4 8)。 

如同大部分微分方程系统，我们想确定的第一件事情是，这个系统是否存 
在一个均衡点（或多个均衡点）。我们通过把微分方程组（方程 4. 1和方程 
4. 2) 设为0,求解这个方程组来得到均衡点 X ’和 。这里，得到两条直线的 
方程 组为： 

0 == ay — mx + g 匸4. 3] 

0 = bx —ny -\-h [4. 4] 

这两个方程的均衡点就是这两条直线的交点。在这里，/• = ( ah + gn )/( nm - 
ah ), Y ' = (bg -\- hm)/(mn — ab ) 0 只要 —ah 辛 Q , 就存在均 衡点。 

下一步我们想知道，这个均衡点是否稳定。也就是说，均衡点（ X 、 ) 附 
近的轨迹是流向均衡点并停留在其附近，还是远离均衡点？这个问题的答案取 
决于参数值。对于任何特定的参数值，确定均衡点是否稳定的一种方式是在一 
张图中画两条线(方程 4. 3和方程 4. 4) ，然后留意图中不同区域中导数的符号， 
因为它们是由这两条直线确定的。这种方法在理查森 （ I 960: 24 — 27)、丹比 
( Danby , 1997:49 — 50) 和其他很多文献中均有介绍。 

然而，一阶微分方程的二维系统的稳定性与二阶微分方程的稳定性有明确 
的联系。弄清楚为什么这样非常有帮助。本书之后会介绍怎么把一个二阶微 
分方程转换成两个一阶微分方程系统。反之亦然，即能把两个一阶微分方程系 
统改写成一个二阶微分方程。以理查森军备竞赛模型为例，对方程 4. 1两边求 
导得到/尤/山 2 ,从而 得到： 

d ^ x / dt 1 = aidy/cLO — midx / dt ) [4.5] 

现在，变换方程 4. 5,得到 dy/dt 的表达式，代人方程 4. 2, 得到： 

d 2 x / dt 2 = a(hx 一 ny h ) — mi . dx / dt ) [4.6] 


再根据方程 4. 1 得到: y 的表达式，代人方程 4. 6,再整理得到以下二阶微分 


方程: 
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d 2 x/dt 1 + (.m + n) (dx/clt) + (tnn — ab)x — (ah - \~ng) =0 

一般来讲，我们没有必要把一阶微分方程系统转换成二阶微分方程来分 
析，但实际情况刚好相反，我们需要把二阶微分方程转换成一阶微分方程系统， 
然后再用本书介绍的分析方法来分析。我们处理一阶微分方程系统时，其实就 
是在处理高阶微分方程。前面介绍的内容对理解这一点非常必要。二阶微分 
方程比一阶微分方程能“做更多”，从某种意义上讲，二阶微分方程比一阶微分 
方程更能表现多样的行为。因此，当我们处理一阶微分方程系统的时候，我们 
正是利用微分方程的所有行为“能量”。 

理查森军备竞赛模型能产生多组行为模式。我们可以通过流程图来看这 
些模式。图 4.1 是一个流程图和方向场域图的组合图。在这个例子中，我们用 
Phaser 程序来画这张图及后面的附加图。用于这张图的方程是办/& = 0. 1^- 
0. \x + 0. 02和 dy/dt = 0. lx -0. 1^ + 0. 03,这些参数表示对敌国的怀疑（如 
a = 0. 1, 6 = 0. 1) 和本国的经济负担(如 77 Z = 0. 1 ， n = 0. 1) 水平相当，但是国 
家 ya = 0.03) 的历史和领导因素比国家 X(g = 0.02) 稍有加强。图 4. 1所展 
示的是个可怕的情形，因为我们看到的将是两国之间失控的军备竞赛。 
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图 4.1 理查森军备竞赛（第一种情形) 




A 1 国的军备支出 

图 4. 2 理查森军备竞赛 （第二 种情形 > 

然而，即使稍稍改变参数，也能产生非常不同的结果，如图 4. 3所示。图 4. 
3所使用的方程是 cbc/dt = 2 ;y — x — 1和 dy/dl = 5 x —4 ：y — 1。在这种情形中， 
图左下角的均衡点不稳定，意味着这是一个排斥极。轨迹最终将远离这个点， 
或者安全地回归到原点,或者无休止地趋向毁灭性的增长。以哪种方式终止取 
决于它们的起点，这种情形也并不能令人欣慰。在这里显示的3种情形中，仅有 
图 4. 2表示的第二种情形才能真正令人欣慰。但需要注意的是，从第一种情形 
的相对稳定到第三种情形（图 4. 3) 的排斥极的不稳定性，仅需要改动模型中有 
关领导因素的参数值(参数/ I 和#)即可。这就是让理查森非常担忧的问题。 

读者可以继续深人探究理查森军备竞赛模型（其实已经有很多介绍）。如 
果读者刚开始接触该模型，可以参考拉波波特（1960)、布朗（1983)、丹比 （1997) 
和赫克费尔特、科费尔德、莱肯斯 （1982) 著作中关于这个模型的讨论。但是，前 
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图 4. 2呈现了一个不同的情形。图中用到的方程是办/力 =>>—2 _r + 3 和 
dy/dt = 4 x -5^ + 6„ 在这个例子中，我使用的是丹比 （1997:51) 所使用的参数 
值。我们可以清楚地看到，图的中心点附近有一个稳定的均衡点，因为所有的 
轨迹都趋向这个点。表达这种情形的另一种方式是，所有轨迹都落到这个引力 
点的场域中。这是一个能找到军力均衡的军备竞赛。 
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图 4.3 理查森军备竞赛（第三种情形） 

面的基本思想概述展示了，社会科学家如何用简单的微分方程模型从人类社会 
中提取深刻的道理。 


兰彻斯特战斗模型 


1996年， F . W . 兰彻斯特发表了一系列用微分方程模型定量描述不同类型 
的军队在战场上交战时，军队之间的得失。这些模型最终都成为经典的模型, 
在很多一般建模课程或分析军事战争行动的课程中被仔细研究。读者可以在 
布朗 （1983) 和丹比 （1997: 139— 140) 的论文中看到这些模型的有趣应用，还能在 
布朗 （1983) 和恩格尔 ( Engel , 1954) 的著作中找到把这些模型应用于第二次世 
界大战中的硫磺岛 (I wo J ima ) 战役的经典讨论。 

兰彻斯特战斗模型常常考虑3种情形。这3种模型的不同主要在于参与战 
争的是常规军还是游击队员。两个军队的军事力量分別用变量: r 和^来表示。 
对于双方军队来说，都有两种损耗率和一种增援来源(来自援军）。第一种损耗 
率是军事行动方面的。军事行动的损耗仅仅发生在部署自己军队的时候。这 
种损耗包括由于交通事故、意外的坠机、疾病和逃跑造成的死亡。一个军队的 
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军事行动损耗率与这个军队部署的士兵数量成比例。这类损耗在兰彻斯特战 
斗模型的3种情形中都是类似的。第二种损耗率是战斗损耗。战斗损耗是由敌 
军的杀伤行动造成的死亡。当一个军队由常规军组成，且假定常规军处于敌军 
的杀伤范围内，则敌军可以直接观察到其兵力。常规军的战斗损耗与敌军的兵 
力成比例。例如，如果部队 X 是常规军，那么它的战斗损耗率是 a ； y ， 其中， y 是 
敌军的数量，参数〃是比例系数。这个参数称为部队 Y 的“作战能力系数”。这 
个参数值越大，部队 Y 杀死部队 X 士兵的能力越强。 

游击部队的战斗损耗与常规军不同。游击队员一般都藏在城市或自然环 
境中，敌军很难发现他们。要杀死游击队员，一般需要敌军直接一对一或以小 
部队形式与游击队员作战。因此，需要与游击队作个人接触。从数学上来说， 
这种交互作用常常通过把两个变量 x 和^相乘得到。在这种情况下，如果部队 
X 是游击队，那么，其战斗损耗率是 cry , 其中， r 表示部队 Y 杀死游击队 X 的队 
员的作战能力系数。 

部队能增加兵力的唯一方式是增派援军。这种增援随战场的变化而变化。 
需要注意的是，兰彻斯特战斗模型中的大部分短期行动是由杀伤或军事行动造 
成的死亡而形成。因此，援军成为任何持续时间很长的战场的一个至关重要的 
附加因素。 


情形一 


在兰彻斯特战斗模型的第一种情形中，两支正规军队作战。这种作战情形 
可以用方程 4. 7和方程 4. 8来表示。 


dx/dt = — ay — ex + f ( t ) [4.7] 

dy/dt =— bx — ny + g ( t ) [4.8] 

在方程 4. 7 和方程 4. 8中，参数 u 是部队 Y 杀伤部队 X 的作战能力系数， 
参数6是部队 X 杀伤部队 Y 的作战能力系数。部队 X 的军事行动损耗率由 a 
决定，部队 Y 的军事行动损耗率由决定。当然，所有损耗率的系数都是负 
的。函数 /(?) 和分别是部队 X 和部队 Y 的援军比率。 
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第一种情形产生了一个由两个一阶相互依赖的常微分方程组成的线性系 
统。这种系统的行为特点因参数值的不同而存在很大差异。这些方程的分析 
方法之一是直接通过算术变换。例如，读者会问，是否存在一种分析方法，能从 
模型的算式中识别出一个部队如何比另一个部队更有优势，实际上确实存在这 
种情形。如果没有援军，而且没有军事行动损耗率，那么我们可以把方程 4 . 7 除 
以方程 4. 8得到 dbcldy = aylbx 。 我们使用分离变量法来对这个方程积分， 
得到： 

hr 2 =ay 2 -\-C 

其中， c 是积分常数。把这个方程重新整理，得到 &r 2 — = c， 这适应于微分 

方程系统的任意解。这表明，只要>町?，部队X就会赢得战争。在这里, 
和加是这些变量的初始值。这是兰彻斯特“二乘法”应用于正规部队之间的 
战争时的例子。 

情形二 

兰彻斯特战斗模型的第二种情形是一支正规部队和一支游击部队之间的 
战争。只有在描述游击队的损耗时，才需要交互战争损耗项。这种情形可以用 
方程 4. 9和方程 4. 10 表示： 

dx/dt - — acy — ex + fit) [ 4 . 9 ] 

dy/dt = — bt — ny g{t) [ 4 . 10 ] 

请注意，这种情形和情形一之间仅有的差异是用 cry 来代替部队X的战争 
损耗率。这一项使得这两个微分方程组成的系统变成非线性。 


情形三 


兰彻斯特战斗模型的第三种情形是两支游击部队之间的战争。这种情形 
可以用方程 4. 11和方程 4. 12表示。 


dx/dt = — cxy 一 ex + fit) 


[ 4 . 11 ] 
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dy/dt = — kxy 一 ny + g(t) [4. 12] 

在这种情形下，两支部队都有交互战争损耗率. 

拉波波特生产交易模型 

下面的模型由阿纳托尔 • 拉波波特 ( I 960) 提出，后由丹比 （1997: 140— 141) 
修改。这是本书中所包含的微分方程应用的非常有用的例子之一，因此，它展 
示了这样的方程如何应用到经济学和社会选择理论中。虽然模型的分析揭示 
了个人行为中令人惊讶的复杂一面，但模型的基本理念非常简单。 

我们从两个人 X 和 Y 开始 介绍。 两个人都生产物品，分别表示为 x 和: y 。 
为了增加他们的幸福感，他们希望相互交换各自的产品。一个人把自己产品的 
一定比例 f 留下，另一部分9拿去交易，其中， q =\ — P 。 一个人拥有和交易产 
品的幸福感通常根据“效应”来测量，效应普遍用于经济学和社会选择讨论中， 
它能够作为“公共分母”用于不同事物间的比较。例如，假定 X 生产的物品和 Y 
生产的不同。因此，我们自然会问，根据一个人的满意度或幸福度，一个单位的 
y 将值多少单位的 x 。 如果已知某个人从一个单位的 _ r 获得的效应以及从一个 
单位的获得的效应，那么，我们可以简单地把这些效应相加，得到同时拥有 
和^的效应。我们想通过模型来表示 x 和 (如生产者 X 和 Y 生产的产品数量 
的变化)产生的效应如何随着和: y 的大小变化而改变。 

建立这个模型需要根据生产交易的得失来表示生产者 x 和 y 的效应。拉 
波波特假设，人一般不想工作，除非不得不工作时才会去工作。因此，由于不得 
不生产，所以生产的效应会减少。由于不得不生产导致的效应减少的大小是产 
品数量的函数，但是效应的增加却不一样。人们喜欢拥有产品，因此，当人们获 
得自己或别人生产的物品时，效应会增加。这里，我们引人一个精神物理学中 
常用的概念，即费希纳法则 （ Fechner ’ Law ) ，有时也称为“韦伯法则” （ Weber’s 
Law )。 这个法则指出，只有当个人受到的原始刺激成几何级数增长时，个人的 
意识才能成算术级数增长。根据这个法则，拥有的物品加倍，会使一个最初连 
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一分钱都没有的穷人的满足感大大增加，而一个富人从中得到的满足感远没有 
穷人多。费希纳法则的原始概念是有关受到光电等物理刺激的增加与感觉意 
识的增加之间的关系。 

因此，我们能够把每个人的效应模型 化为： 

U x = log ( \ px -\- qy ) — r^jc 
U y = log ( l-\-qx + py )— r y y 

在这里，表示第；个人由于物品得失而获得的效应 ，一 和分别 
表示由于必须工作而减少的效应， log ( l+gr +办）和 log ( l +^ J "+<7^) 表示由 
于拥有物品而获得的效应。因为个人 X 和 Y 因迫于生计不得不工作而减少的 
效应不同，所以我给他们的效应减少项附上了不同的下标。 log 项中的1是为 
了避免 x 和: y 太小时，效应值为负值而添加的。 

但是.我们想要模型化的是和^值的变化.而不是个人 X 和 Y 的效应。 
从这个建模概念内涵的理性视角来看.模型假设产量的变化仅当效应发生变化 
时才改变。具体模型化的一种方法是把1和的变化表示成他们各自效应函 
数的偏导数的比例。因此，我们可以 规定： 




[ 4 . 13 ] 


dy = ( _^_ 

dt ' ( 1 + gr + ) 



[ 4 . 14 ] 


对这个模型的分析始于确定模型的均衡值，而对这个模型的数值分析 
始于设定不同的参数值。有时，我们可以把参数值设定为 G 和 O = 
r ” 给定不同的参数值可以画岀这个模型的不同特征的相位图。例如，当 X 
或 y (但不是两者都）停止生产时，产生寄生状态——工作的行为准则（如参 
数 r , 和「,）稍稍发生变化将导致严重的长期整体交易失衡，从而产生寄生 
状态。这个模型不仅能描述个人之间的相互影响，而且能扩展到描述国家 
之间的相互影响。 
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本章小结 

本章介绍了社会科学中使用微分方程建模的3个经典实例。这3个例子都 
包括一阶微分方程系统。前两个模型(理查森军备竞赛模型和兰彻斯特战斗模 
型)重点讨论军事概念，这是在所有用微分方程建模的文献中有关社会科学的、 
引用最广的模型之一。两个模型都具有之前讨论的猎食模型中的算术成分。 
本章最后介绍的社会科学模型是拉波波特生产交易模型，这是个有关经济学主 
题的模型。这个例子的算术结构更复杂，它展示了微分方程模型如何用来处理 
消费者偏好和个人效应这类问题。这些例子尽管很引人入胜，但是仅仅触及微 
分方程建模在社会科学中广泛应用的一角。在社会科学研究中，出现了越来越 
多更高级的模型,它们能以新方式冲破模型具体化的边界。 



第 5 章 


二阶非自治微分方程转化成一阶 
微分方程系统 


本书到目前为止，仅仅讨论了一阶微分方程系统。然而，理论家有时需要 
处理包含更高阶导数的模型，如二阶导数的模型。实际上，我们已经间接处理 
过二阶导数，因为一阶微分方程系统能表示成二阶微分方程，这在前面介绍理 
查森军备竞赛模型时讨论过。一般来讲，我们不需要担心把一阶微分方程系统 
转换成一个二阶微分方程的问题，因为本书 所介绍 的都是处理一阶微分方程的 
技术。然而，当我们从二阶微分方程开始，且需要把这个方程转换成一阶微分 
方程系统来用这些技术做分析时，就会出现问题。 

在物理科学中，经常遇到二阶微分方程模型。此外，有关物体质量和加速 
度的牛顿第二法则是一个二阶微分方程，因为加速度是速度的导数，而速度本 
身是一阶导数。但在社会科学中，大部分微分方程模型始于一阶微分方程系 
统。如果社会科学家从一开始就是处理一阶微分系统，那么为什么他们还需要 
知道怎么把二阶微分方程转化成一阶微分系统呢？我们可以从两方面回答这 
个问 题:一 是从技术方面，二是从实用方面。从技术方面来讲，所有的建模者都 
可以从别人的例子中学习，大量现有的二阶微分方程模型呈现出很多社会科学 
家想研究的特征。例如， Phaser 程序提供了大量的动态系统，这些系统必须根 
据二阶微分方程来理解。如果我们不能很好地研究和理解别人的模型，我们怎 
么创新呢？从实用方面来讲，相似的数学模型常常源于不同研究领域的动态过 
程。因此，社会科学家可能遇到二阶微分方程模型，虽然这些模型源于物理科 
学和自然科学，但这些模型的结构与存在相似动态特征的社会和政治现象相 
同，以至于社会科学家也会利用这些模型来研究社会和政治现象。这正是拥有 
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跨领域建模的广泛视野的数学家阿纳托尔 • 拉波波特力争的一点 （ Rapoport ， 
1983:25—26)。 

此外，二阶微分方程是存在二阶导数且以其为最高导数的方程。例如，方 
程 5. 1是同质线性微分常系数 方程： 

a ^ +l,c !h +cy=o [5 . l] 

方程 5. 1 是同质的，因为方程右边为0。方程是线性的，因为方程中不存在 
非线性项，如 y 。 方程是常系数，因为参数《、6、 r 不变。如果方程 5.1 的右边 
不为0,则方程为非同质的。 

有两种处理二阶线性微分方程的一般方法:第一种是找到这种方程的确切 
解，第二种是把这个问题改用一阶方程系统来表示。就求解二阶线性微分方程 
的确切解来讲，这有点像一门艺术，因为它包含了一些智能猜测（称为“猜测检 
验”法），根据规则并通过猜测初始值而获得方程的完备通解。本章主要讨论另 
一种处理二阶或更高阶微分方程的方法，即把这些方程转换成一阶微分方程。 

在这里，强调这种替代方法存在多种原因。首先，适用于求二阶和更高阶 
线性微分方程通解的方法常常不能用于非线性微分方程。其次，关于二阶和更 
高阶线性微分方程的求解方法的讨论是相当标准的，常常能在任何讨论微分方 
程的书籍中找到。而且，在下一章讨论有关微分方程系统的稳定性分析时，会 
涉及大量这方面的内容。感兴趣的读者能在布兰查德等人 (2006: 324— 329) 和 
齐尔 (2005: 第4章)的文章中找到求二阶和更高阶线性微分方程确切解的方法 
的完整讨论。 

更重要的是，前面提到的替代方法能用于解决二阶和更高阶微分方程的定 
性行为，这与本书通篇使用的微分方程建模方法有很多相似之处。实际上，这 
些方法更适用于我们的目的，因为它们把求二阶或更高阶微分方程确切解的问 
题转化成求解一阶微分方程系统的问题。如果读者想用数值分析法来研究微 
分方程，那么非常有必要这样做。实际上，这种方法越来越受到数学家的青睐。 
即便如此，读者应该注意，这里偏好的方法（处理一阶微分方程系统)绝不是所 
有人都支持。有些读者也许发现，在某些情况下，求二阶或高阶线性微分方程 
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确切解的传统方法非常有帮助。下一章在稳定性分析的情形下讨论这个问题 
的做法将非常有启发性。 



将二阶和更高阶微分方程转换成一阶微分方程系统非常容易 （Blanchard et 
al . , 2005:159—161)。这种转换不会丢失信息或失去-•般性。此外，使用数值 
分析法研究二阶或更高阶微分方程时，这类转换是非常必要的。 

例如，我们有任何一个高于一阶的微分方程。为了把这个方程转换成一个 
微分方程系统，首先要把最高次导数单独放在方程的一边，其他项放在方程的 
另一边。我们以方程 5. 2为例，使用科洽克 （ 1989: 6 — 7) 建议的符号和表达 
方式： 


，小， 窆 ，…， P ) 


[5. 2] 


为了继_下一步，我们需要知道除了最高阶导数之外其他项的初始条件 
(如方程 5. 2 的左边）。因此，我们需要初始条件 

yf 。）， 在点 dy/dt 的值， … ，在 < 0 点 d "-' y / dt " ' 的值 [5. 3] 

现在，我们引进新变量。这些变量将代替> dy / dt , d " 1 3 / A / 广 1 。由 
于所有这些都会改变，所以我们从中生成新变量，并把它们作为微分方程系统 
的分离项。新变量 形如： 

X , (/) = y 

xAt 、 = dy/dt … [ 5 . 4 ] 

= d "~' y / dt r ' 

现在，我们想把所有 A 变童求导，以便建立一个能使用这些导数的微分方 
程系统。因此，我们 得到： 

dx x /dt = x 2 (从方程 5. 4中得到） 
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dxz/dt = x 3 (也从方程 5. 4中得到） 

docn/dt = F ( x x , x 2 , » x n ) (从方程 5. 2 中得到，并替换 x ,) 

在正常情况下，我们能用 RK 4 法来处理这一系列方程。记住，这些变量的 
初始条件可以从方程 5. 3得到。因此， 

工 1 ( ， o) = y(t 0 ) 

x 2 (t 0 ) = dy/dtUo)^* 

JOn(to) = y/dt^ito) 

到此，完成转换。 

接下来，请思考二阶微分方程 5. 5: 

&一 7 f - 吻 [ 5 . 5 ] 

我们从设定新变量4开始。因此，我们 得到： 

工 1 ⑴= ：y 和上 2 ⑴ = 办/力 [5. 6] 

通过代换，我们可以得到新的一阶微分方程 系统： 

dx\/dt = X 2 
dxil dt = — 7x2 — 10xi 

为了用 RK 4 法数值分析这个微分方程系统，我们需要知道火即 _ r ,) 和 
t ^ /出 (即 A ) 的初始值。其他例子可以参见科洽克 （1989:6— 7)。 


非自治微分方程 


在政治学中，一个“自治”地区或团体是自主管理的实体，甚至在一个大学 
里会有自治委员会。其自治的理念在于，这种地区或团体不依赖外在条件而运 
行。例如，一个真正自治的团体做事的时候，不必请求别人的许可。自治在微 
分方程中的意思也与之类似。自治微分方程基于它们自身的内在值来运作。 
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实际上，微分方程的自治系统仅仅基于因变量的值来运作。但是，一个非自治 
系统在运作时，则需要除因变量之外的其他信息，同时也需要自变量的值。因 
此，非自治微分方程是模型中也包括自变量 < 的微分方程。例如，方程 5. 7是包 
括所谓“受迫谐振子”成分的非自治微分 方程： 

dx /dt — ay — /nx+g[ cos (/>，）] [5.7] 

读者将会注意到，这个方程是对理查森军事竞赛模型（方程 4. 1) 稍作修正 
而得到的。在这里，假设国家 X 的军备开支将经历循环变化。这些变化可能是 
选举循环的一个后果。在这个循环中，国家领导人在普选前夕为了获得更多选 
票而试图激起对国家 y 的担忧。由于自变量〖的值包括在模型中，所以这个模 
型是非自治的。 

在执行数值分析实验时，有几种方法可以处理数值模型中包括自变量的情 
形。其中一种方法是，仅在 RK 4 法的步长随着时间推进前移时，记录 ； 值。但 
更一般的方法是通过产生一个新的方程来增加系统的维度。因此，我们构建一 
个新变量 ^ +1 ，其中，《是原始微分方程系统的维度（如因变量的数量），则新的 
微分方 程是： 



初始条件是 xm (0) = i 。 。 

把方程 5.8 对 f 进行积分得到解 x ^= f +^( K oca k ， 1989:7—8)。现在我 
们得到这个新变量 x „ +1 ，并用它去替代系统中所有的/。 

例如，用这种方法得到的新理查森军备竞赛模型 如下： 


dx\/dt = aj：2 

\ ~ mx \ +g[cos(/?x 3 )] 

[5.9] 

djcz/dt 

= bx \ - iu：2 ~\~h 

[5. 10] 

dx^/dt 

= 1 ， Xz (0) = to 

[5. 11] 


请注意，我们把所有的变量都变成了 x , 的形式。有趣的是，这个理查森军 
备竞赛模型有可能处理由于在方程 5. 9中纳人受迫谐振子而形成的高度纵向变 
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异 （ Brown ，1995 b )。 

本章小结 

本章首先集中介绍了把一个二阶或更高阶微分方程转换成一阶微分方程 
系统的方法。这样做的主要目的之一是，方便数值分析自然科学和社会科学中 
常用的二阶和更高阶微分方程模型。本书介绍的数值方法（如 RK 4 法)仅适用 
于一阶微分系统，因此从这点上来讲，把更高阶微分方程转换成一阶微分方程 
系统是非常必要的。社会科学家常常发现 ，一 个社会过程和一个用二阶微分方 
程模拟的物理过程的某一个或某几个方面存在动态类似之处。因此，理论家们 
可以通过这种处理更高阶微分方程的方式来进一步探索与这些模型有关的更 
高阶动态系统。 

本章还介绍了处理非自治微分方程的一种方法。这种方法可以和用于更 
高阶微分方程的方法相比较，从某种意义上来说，可以增加系统的维度(在这个 
例子中是增加一维)来作为记录自变量/的一种方式。因此，一个非自治微分方 
程可以写成由两个一阶自治微分方程组成的系统。本书使用的数值方法（如 
RK 4) 能像其用于所有一阶微分方程系统那样来处理这个微分系统。 



第 6 章 I 线性微分方程系统的稳定性分析 


微分方程模型分析几乎总是至少包括3个主要方面。首先应该识别均衡点 
和系统的吸引域，这可能包括均衡域的识别。其次是描述因变量在相关的相位 
空间内的轨迹行为。再次是描述进人均衡点的近域的轨迹行为。本章集中讨 
论关于一阶线性微分方程系统的第三步。 

不管是线性方程还是非线性方程，微分方程系统在均衡点附近的行为通常 
非常类似(偶尔出现行为差异大的情形）。离均衡点越远，线性和非线性微分方 
程的行为可能越大相径庭，本书前面提到的数值方法对于描述这些行为非常重 
要。但是，在一个二维系统的均衡点附近，微分方程系统通常出现6种基本行 
为，每种行为都非常值得我们重视。我们能通过检验这个线性例子来清晰地识 
别这些行为。 

一个系统中的稳定性如何突变的一个例子 

首先，我们通过介绍一个微分方程系统非常容易有均衡点，且均衡点可以 
根据系统参数值的不同而呈现非常不同的稳定性特征，来讨论稳定性分析。下 
面以理查森军备竞赛模型为例。方程 4. 3和方程 4. 4中呈现的理查森军备竞赛 
模型的均衡值是 X * = (aA ~\~gn )/(,rrm —ab ) 和 Y * =( 如 — hm)/(mn — oA ) 。如 
前面所提到的，只要 7rm—ab 羊 0, 均衡值就存在。也可能存在改变参数值但是 
均衡点( X 、 ) 近似保持不变的情形，即尽管参数值发生变化，但均衡点几乎 
不变。这也许需要在某一时点改变至少一个参数值，以致均衡解保持相同。在 
现实中，这个系统的观察者也许无法发现任何差异，因为观察者也许仅能观察 
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到在均衡点时，每个国家的军购数量。但是，如果参数变化很大以致 rm—ahhk 
正值变成负值(如 mn < ab ), 那么，均衡值的稳定性也会突然从稳定变得不稳定 
( Richardson , I 960: 24—28; Rapoport , 1983:126—128)。实质上，这意味着，如 
果最近的历史表明一切都是“安全”和稳定的，那么，一个国家会突然发现自己 
处于失控的军备竞赛中。在连环画中，从来看不到这种情形发生。 

前面描述的现象与所谓“突变论”的动态建模领域有关，这在我写的其他书 
中有过介绍和应用 （ Brown , 1995 a 、1995 b )。 宏观社会系统的行为动态依赖于 
特定状态或系统均衡点的局部稳定特性。一些科学家通过给他们的系统设定 
限定值来处理突然的变化。当特定的参数值超过这些限定值时，系统的行为能 
改变，就像有两套“规则”控制着系统，分别适用不同的情形。然而，拉波波特争 
论说，这是临时的，描述了系统的行为而不描述其潜在结构 （ Rapoport , 1983： 
127)。但将突变论应用到微分方程中时，我们是通过直接依赖潜在机制来描述 
系统的突变行为的。这将有助于促进微分方程系统稳定性的研究——理解是 
什么引起系统稳定与否，或有哪种稳定性或不稳定性一让我们有可能从一个 
新的角度理解社会系统。实际上，这是目前把微分方程系统应用到真实现象的 
一个研究领域。 

标量法 

为了描述二维微分方程系统在均衡点附近的6种基本行为，下面以方程 
6. 1和方程 6. 2为例，来处理线性微分方程。这些方程类似于理查森军备竞赛 
模型： 

dx/dt = ax -\- by [6_ 1] 

dy/dt = cx -\-ky [6. 2] 

首先，我们要注意，原点是这个系统的均衡点，这能通过检验或把方程 6. 1 
和方程 6. 2同时设定为0并求解这两个方程得到。现在把方程 6. 1和方程 6. 2 
转换成一个更高阶微分方程。首先对方程 6. 1两边求导, 得到： 
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dt 2 dt dt 


[6.3] 


下一步是把方程 6. 2 的 dy / dt 和方程 6. 1中的: y 代入方程 6. 3,得到方 


程 6. 4: 


U + k)^ + (ak~bc)a: 


[6.4] 


我们将用“猜测检验法”求解这个二阶微分方程 （Blanchard et al . ， 2005： 117- 
120、194—195)。 

先猜测 i = Af " ，其中 r 为常数， A 为任意常数，我们希望这是 x 的一个解。 
再次， x 的解可能是不包含任何导数的算术方程，给定任何自变量〖的值，都会 
得出的值。猜测可能解的依据之一是相关的一阶线性微分方程的解(参 
见方程 2. 4) ,另一个依据是，如果方程 6. 4中不同导数的线性组合都抵消为0, 
那么，导数在某种程度上可能是重复的。 

请注意， cLc/dt = rAe rt , d 2 x/dt 2 = / 。 把这些值代人方程 6. 4 得到方 
程 6. 5: 

-U + k)rAe n +(ak-bc)Ae n = 0 [6.5] 

提取公因子(注意'乒 0 ) ，我们得到所谓的“特征方程”，如方程 6. 6: 

r 2 — (a + ^)r + (ak ~ be) = 0 [6.6] 

因此，看起来只要我们能找到参数 r 的适当值，就能得到可能解 x = 。 

我们关注两个微分方程(方程 6. 1和方程 6. 2) 组成的系统在均衡点(0, 0) 
附近的行为。因变量的解依赖于特征方程的根。我们能用二次公式或对更高 
阶系统用 Newton 方法得到根。就自变量 x 而言，我们想求解参数 r 的值以满 
足其他参数 ( a 、 6、 c •和 /(;) 值给定时的方程 6. 6。注意，方程 6. 6有两个根 （ r , 和 
r 2 )„ 如果我们仅仅把 : r = 作为方程的解，则有两个不同的根。因此，我 
们要想办法把这两个解合成一个。 

在微分方程理论中，有一个叠加原理 （ Zill ， 2005:130—134)。这个原理也 
称为“线性 原理 ” （Blanchard et al . ， 2005 : 114 一116； Morris &- Brown , 1952 : 
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69—71)。这个原理可以分成两部分。首先，如果找到方程的解，则这个解乘以 
任何常数仍是这个方程的解。这能很容易得到证明。因为/^"是1的一个解， 
把 . sA ， （和其导数)代人方程 6. 4将同样得到方程 6. 5——两边消除公因子会把 
参数 s 消去，得到方程 6. 5。其次，叠加原理还表明，如果微分方程有两个解，那 
么这两个解的任意线性组合也是这个方程的解。这也适用于更高阶微分方程， 
不同的是，这是由更多解组成的线性组合。这两个解的线性组合是二阶同质微 
分方程的通解，下面将具体介绍如何得到这个通解。 

请记住，我们这里所做的是为了确定二阶微分方程系统因变量的行为。二 
阶微分方程的解包括一个参数值 r ， 它有两个值。这意味着，这个微分方程的行 
为将依赖于特征方程 6. 6的根。 

此时，我们用一个实例来看这个求解过程。在这个例子中，我将用丹比 
(1" 7 : 5 2— 54 )建议的参数值。我们把方程 6. 1和方程 6. 2中的参数都设定为 
具体的值，得到下面的方程 6. 7和方程 6. 8: 

dxl dt = 2 x -\- y [6.7] 

dy/dt = x -\-2 y [6. 8] 

这意味着 ， a = 2,6= l ， c = l ，々==2。 把这些参数值代人方程 6. 6,得到 
方程 6.9： 

r 2 -4 r +3 = 0 [6. 9] 

使用二次公式，得到两 个根 ： n = 1和 r 2 = 3。 

我们现在需要用这两个根得到这个系统的通解。由于系统是相互依赖的， 
因此 x 依赖于 y ， 反之亦然。所以，我们需要把 I 和3；的解都求出来。我们将使 
用猜测法，即猜测 2 = A ?% y 。请注意， dx/dt = rAe n , dy/dt = rBe ", 

然后把这些值代人原始方程 6. 7 和方程 6. 8中， 得到： 

rAe rt = 2{ Ae rt ')+ Be r ' 

rBe n = Ae n J t -2( Be n ) 

方程两边同时除以，，再整理这两个方程，得 到： 
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A (2- r)+B = 0 
A + B (2- r ) = 0 

' 2 _ y ， 1 ' 

请注意，只有当 det r =0时，这两个方程才能求出 A 和 B 的 

1 2-rJ 

有效解。 

这是得到系统的特征方程的另一种方法。我在这里介绍，以便读者注意到 
这里的标量法和后面介绍的矩阵法两者之间重要的相似之处。解上面的方程 
得到两 个根 ： n = 1和~ = 3。 把这两个根代人上面的两个方程中求解 A 和 B 。 
注意，当 n = 1时 ， A =— B -, 当 r 2 = 3时 ， A = B 。 其中， A 为任意实数。为了 
区分，我们用八，和八 2 来代替。 

现在我们可以用 A , 来表示方程的解。因此，我们有4个解，分 别是： 

jc = Aie' 
y = — A | e ' 

和 

x = A 2 e 3 ' 
y = A 2 e 3 ' 

根据叠加原理，通解可以写成这两个解的线性组合。这意味着，二阶微分 
方程 6. 4的 _ r 和: y 的通解可以表 示为： 

x = A ] e '+ A 2 e il [6.10] 

y =- A , e ' + Aze ^ [6. 11] 

其中， A , 是依赖于和 j 的初始条件的任意常数。这些常数类似于一阶线性微 
分方程的解(方程 2. 4) 中的常数加。注意，方程 6. 10和方程 6. 11分别是 x 和3； 
的解的线性组合，每个解都用了方程 6. 9的一个根。 

读者应该清楚•点.因变量 I 和^随时间而变化的行为将依赖于特征方程 
的根。从方程 6. 10和方程 6. 11中可以看出，由于这两个根都是正值，所以随着 
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时间的推移，2和^的值将呈指数增加。这意味着，这个系统的均衡值（如方程 
6.7 和方程 6. 8所定义的）是不稳定的，这个均衡值本身（如原点）被称为一个 
“不稳定的节点”。 


矩阵法 


在这点上，我们需要退一步，用一种不同的方法，即矩阵，来评估微分方程 
的线性系统的行为。从我的角度来讲，这种矩阵法更具一般性且更可取(我在 
下面将论述原因），虽然一些读者可能更喜欢用前面描述的“猜测检验法”来求 
解微分方程。这种矩阵法不仅能用来处理线性微分方程，而且也能用来处理非 
线性微分方程，这在下一章将进行讨论。 

我们首先介绍两个微分方程（方程 6. 1和方程 6. 2) 组成的系统的矩阵形 
式。我们不会像之前那样，把这个系统转换成一个二阶方程。因此，我们把这 
些原始方程写成矩阵 形式： 

d\/dt = AY [6. 12] 

其中， 

(2 1 ] 

A = 

1 2j 


矩阵 A (称为“系数矩阵”）中的各元素是方程 6. 7 和方程 6. 8组成的系统的系 
数。向量 Y 有两个元素—— x 和 >它们是这个系统的因变量。根据方程 6.1 
和方程 6.2： 


d\ = 

dx /dt ' 


ax ~\~ by 


a b 、 

X 

dt 

、dy ! dt \ 


- ky y 


S k, 

、义 


[6. 13] 


根据叠加原理，我们知道，能通过线性组合任意两个给定的解来得到这个 
方程系统的解。因此，如果 Ki ) 和 Y 2 U ) 是系统(方程 6. 13) 的解（即特解），从 
而我们能 得出： 


wi Yi (t) + wzY 2 ⑴ 


[6. 14] 
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也是系统的解（即通解）。在这里，我们 用叫表 示任意常数。求这个通解需要 
先求这两个特解，将这两个特解分别与原始系数矩阵相乘得到相同的向量 Y (在 
很多例子中，这些解称为“直线解”，因为在相位图中，识别的轨迹是直线）。因 
此,我们实际上在寻找两种事物——既需要找到一个能与系数矩阵的作用一样 
的标量，也需要因变量的值。这些值和标量相乘能像把方程 6. 13和系数矩阵相 
乘那样得到相同的结果。 

把向量 V 中因变量的值分组。因此 ，V = Cr ， 7 ) ，我们需要求 V 的值以使 
下列方程 成立： 


AV = a( X 

= A 

X 

=AV 

[6. 15] 







或者， （ A — AI) V = 0。在这里， A 是那个当与向量 V 相乘时与系数矩阵 A 作用一 
样的标量， I 是单位阵。标量 A 也称为矩阵 A 的一个“特征值”，向量 V 也称为对 
应于特征值 A 的“特征向量”。方程 6. 15也可以 写成： 

ax ~\~ by = Xx 

cr +ky = Xy 
或 

(a — \) x~\~by = 0 [6. 16] 

cr + (々一 A)：y = 0 [6. 17] 


只有当 det | A _ AI | = 0 时，这个系统才存在有效解。因此，我们设定 


a~X 

det 

c 



把方程 6. 18展开成算术式，得 到: 


[6. 18] 


A 2 - (a + k)X + (ok — be ) = 0 

这个方程是系统的“特征多项 式”。 系数矩阵 A 的特征值是这个多项式的根。 
由于这是二次方程，所以有两个根。使用前面线性系统（方程 6. 12) 的例子，方 
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程 6. 12可以 写成： 

2 — A 1 

det = 0 

1 2 — A , 

或者 A 2 — 4 A + 3 = 0。在这里 ， Ai = 1 或 A 2 = 3。 

请注意，这个系数矩阵的特征值与使用标量法求得特征方程(方程 6. 9) 的 
根一样。这并非偶然。实际上，我们很快能看到，当我们计算特征方程 6. 6的根 
时，我们一直在处理特征值。方程 2. 4中的参数 a 是一个一维简单一阶线性微 
分方程的一个特征值。 

现在我们求得系统(方程 6. 12) 的特征值，然后要求这些特征值的特征向 
量。把这些特征值代入 （ A — AI)V = 0 ( —次代人一个特征值)中,得到形如方程 
6. 15的表达式，然后求得特征向量。这相当于同时求解方程 6. 16和方程 6. 17 
的标量形式。我们继续用矩阵形式，通过求解下面的系统，得到特征值 为1 =1 
时，对应的特征 向量： 


—A 1 、 


1 V 


JC 


V = 




1 2 一 A y 


、1 1, 




[6. 19] 


把方程 6 . 19 展开，得到两个相同的方程，即 x + j = 0„ 这意味着 x =— y , 
任何形如(一> W 的向量都是与特征值= 1有关的特征向量，只要 y 关 0 。 例 
如，（一1，1)，（2, -2), ( — 5, 5) 都是与特征值=1有关的等价的特征向量。 
这个特征向量记为 V , = (―^, y)o 

当 A 2 = 3时，把这个值代入系统中，得到向量 方程： 


(2 一 3 )x ~h ly = 0 
lx + (2 — 3)3； = 0 

从上式可得到两个相同的方程 ， x = 3»= 这意味着，形如 (> W 的任何向量 
都是这个系统关于特征值 A 2 =3的特征向量。（1， 1) 就是这个特征向量之一。 
这个特征向量记为 V 2 = (> 30 。 

一些读者会注意到， V ,和 V 2 是线性无关的，因此，这两个向量可以组 
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成一个二维空间 R 2 。 这意味着， R 2 空间中的任何点都可以用这两个向量的 
线性组合来表示。利用这些结果和方程 6. 13,我们能把这个方程系统的通 
解 写为： 

Y (/) = + w 2 e 3, V 2 [6. 20] 

请记住，每个向量 V , 和％ 都包括 i 和只要特征向量的形式合适，则通 
解使用哪个特征向量并不重要。例如，由于（一1，1)，（1，一 1)，（2, 一2) 是对 
应于 A , = 1的特征向量的一些例子（由于它们相互之间就相差一个系数），所以 
我们能在解中使用其中任何一个向量。为了简便起见，我将使用与特征值 A , = 
1相对应的特征向量（1，_1)以及与特征值 A 2 = 3对应的特征向量（1，1)。根 
据这个例子，这意味着，微分方程系统 x 的任意解是 :;:(/) =^- w \ e ' + W 2 e i, , y 的任 
意解是 〆 Z ) 这与之前我们使用标量法得到的结果相同（参见 

方程 6. 10和方程 6. 11)。最后一步是求解这两个任意常数 W | 和 w 2 。 为了求 
这两个常数，我们 设定？ = 0,并利用因变量^和 > 的初始条件来解这两个联 
立方程组。 

总而言之，这两个一阶线性微分方程组成的系统有两个不相等的正实特征 
值 ( A ;)， 其通解如方程 6. 21 所示： 

Y(7) = [6.21] 

其中， V , 是特征向量，是依赖于因变量初始值的任意常数。 

这里有两点需要注意。首先，当特征值相同时，或当其中一个特征值为0 
时，或当特征值是复数时，前面介绍的求解一阶微分方程系统的通解的过程在 
这3种情况下稍有不同。从某种程度上讲，这是个坏消息，因为为了求这类线性 
系统的通解，我们需要借用一些其他方法。第二点同样重要，且是个好消息。 
对于一阶线性微分方程组成的系统，因变量随时间变化的行为依赖于系统的特 
征值，而不是特征向量或任意常数。这一点可以从方程 6. 21中看出，也能从下 
面的例子中看出。而且，由于本书推荐的方法是使用数值技术来求解和画一阶 
常微分方程系统，所以，一旦我们理解了线性系统的特征值的重要性，就不需要 
方程的通解，我们真正需要的只有特征值。当然，值得指出的是，在出现能用数 
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值分析处理很多计算的计算机之前，线性系统的通解比线性微分系统的实际应 
用更重要。 

均衡类别 

为什么要像上面那样，一步一步求得线性微分方程系统的通解呢？为了理 
解特征值的重要性，这也有必要介绍一下。一旦知道任意常数和特征向量都不 
会影响线性微分方程系统的行为，那么，特征向量和任意常数就可以完全省掉。 
相反，仅仅根据特征值把线性系统的行为分类，我们能直接使用数值方法来解 
微分方程。 

虽然下面描述的均衡类别可应用于二维线性微分方程系统，但这对非线性 
更多维系统是不够的。例如，三维或更多维的非线性系统可能存在潜在的“奇 
异的吸引子”，这是和混沌理论有关的现象 （ Brown ，1995 b )。 混沌也能出现在 
二维非自治的非线性系统中。但是，下面所列的是所有微分方程系统研究的必 
要起点，不管它的阶次为多少并且是否为线性。在下一章介绍非线性微分方程 
系统时，这一点将进一步得到强调。 

不稳定的节点 

下面，我们对二维自治一阶线性微分方程系统在均衡点附近的行为类型做 
一个分类。我们首先以方程 6. 7和方程 6. 8中的参数值为例。在这里，特征值 
为 A , = ( l ，3), 是不等的正实根。从方程 6. 10和方程 6. 11或方程 6. 20中可以 
看出，随着时间的增加，因变量将毫无边界地持续 增加。 这就在原点生成了一 
个不稳定的节点，即这个系统的均衡点。这类均衡点也称为“源点”。这个词形 
象地描述了轨迹从这点散开，就像太阳发出的光远离太阳那样。这个系统的相 
位图(使用 Phaser 作图)如图 6. 1所示。请注意，所有的轨迹都往外远离原点， 
这就是不稳定的均衡点的特征。 
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注: 初始条件以点表示。所有的运动都沿着显示的轨迹从初始条件往外移动。 


图 6.1 存在不稳定均衡点的二维线性模型 


稳定的节点 

如果系统的参数值改成 <3 =— 4, b = \ , c = I , k =一2,那么，原点附近的 
轨迹行为与图 6. 1将相去甚远。此时，特征值为 A , =—3±#，是不相等的负实 
数。从方程 6. 21可以看出，由于特征值是负数，所 以# 随着时间的增加会趋向 



注: 初始条件以点表示。所有的运动都沿着显示的轨迹从初始条件往外移动，并汇集在图中心的 
原点。 


图 6. 2存在稳定均衡点的二维线性模型 
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于0。由于参数的变化.轨迹逐渐趋向均衡点。在这种情况下，原点是个“稳定 
的节点”。这类均衡点也称为“沉点”。这类系统的相位图如图 6. 2所示。请注 
意，在这个图中，所有的轨迹都移向原点，这类行为是在吸引场域内稳定均衡行 
为的特征。 


鞍点 


如果把这个线性系统的参数值变成《 = 1，6 = 4, c = 2, 々=一1，则特征 
值变成 A , = (3, 一 3)。此时，其中一个特征值是正实根，另一个特征值是负实 
根。读者也许能猜到，这种情形本质上是前面“源点”和“沉点”两种情形的综 
合。现在.把这个均衡点称为“鞍点”。这个词是用来反映马鞍的本质的。从一 
个对角的方向看，均衡点如一个沉点，附近的轨迹都拉向原点。从另一个对角 
的方向看.均衡点将像一个原点，附近的轨迹被拉离原点。然而，实际上，只有 
一个直线解能永远拉向原点，所有其他轨迹最终都会受外力的影响而转向离开 
均衡点。所以这样的均衡点是不稳定的。 



图 6.3 起点为鞍点的二维线性模型 


这是比一个简单源点或沉点更复杂的情形。图 6. 3描述了这个系统在原点 
附近的相位图。把方向场加到图中将有助于表现轨迹的运动方向。所有轨迹 
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流的起点都由点表示。请注意，从图的左上角或右下角附近起始的轨迹开始都 
被拉向原点，但最后由于正特征值的不稳定特征主导这个系统，所以轨迹会在 
第一或第三象限从原点远离。这个没有边界的行为使鞍点变得不稳定。 

不稳定的螺旋线 

当把系统的参数值变成 a = 1, 6 = 4, r =-2, 々=1时，特征值变成存在 

实数和虚数两部分的复数，特征值是 A , = l ± z _#。 这种情形生成了不稳定的螺 
旋线轨迹。这些螺旋线来源于特征值的虚数部分。根据 Euler 方法，我们可以 
把复数写成 sin 和 cos 的函数形式，这样做是为了得到存在复数特征值的线性 
微分方程的实解 （Blanchard el al . ， 2006:293—296)。虽然复特征值的虚数部 
分是因 变量随 时间震荡的行为的主要原因，但实数部分仍能决定均衡点是沉 
点、源点，还是中心点。如果复特征值的实数部分是正数，这个轨迹将从原点螺 
旋形往外走，均衡点是螺旋点的源点。 

图 6. 4表示有正实数部分的复特征值的系统的相位图。图中有4个初始条 
件。请注意，所有轨迹都从原点以螺旋线的形式往外移动。也就是说，给定的 
这些参数值使得原点变成一个不稳定的均衡点。 



注: 运动的方向是沿着箭头往外远离初姶条件（以点表示）。 


图 6. 4存在不稳定螺旋线的二维线性模型 
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稳定的蠼旋线 

下面把参数值改成 a =—1，6=4, c =-2, 々=—1。如果复特征值的实 
数部分是负的，那么相位空间的轨迹螺旋形地趋向原点，这个均衡点是一个 
沉点。此时，这个系统的特征值是 A , =-l±iV8 0 解的负实数部分会产生以 
稳定螺旋线为形式的沉点。这个系统的相位图如图 6. 5所示。这张图中有4 
个初始值。请注意，这4条轨迹都以螺旋线形式趋向原点，此时，原点是稳定 
的均衡点。 



注:运 动的方向是沿着箭头远离初始条件（以点表示），趋向均衡点。 

图 6. 5 存在稳定螺旋线的二维线性模型 


椭圆 

一阶线性微分方程系统的均衡点的最后一类是楠圆。由于方程系统只有 
虚特征值，所以形成了 椭圆。 也就是说,特征值的实数部分是 0。 如果把系统 
的参数值设为 a = 1, b = 4, c =—2, k =— 1,那么特征值为 A ; =± i /7。 这 
个系统的相位图如图 6. 6所示。现在的原点称为“中心点”，所有轨迹永远围 
绕着这个中心点运行。这个中心点是稳定的，这是唯一一类非渐近型的稳定 
均衡点。 
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注 :运动 的方向如箭头所示。 


图 6. 6存在椭圆和中心点的二维线性模型 


稳定标准的小结 


任何维度的线性微分方程系统的稳定性标准恰好都能用图 6. 7所示的复平 
面图来总结。在图 6. 7中， x 轴表示一个系统特征值的实值部分轴表示虚值 
部分。现在的讨论类似于梅 ( May , 1974:23— 26) 的文章中，关于这些技术应用 
于生态系统建模的讨论。虽然本书结构紧凑，但这样讨论有助于解决各种线性 
微分方程的分析解的完整性问题。想进一步了解更详细的讨论的读者，可以参 
考介绍微分方程的更详细的书 (Blanchard et d . ， 2006)。 

现在的问题是，怎么通过把线性微分方程有关的特征值和这些行为的重要 
成分联系起来表现这些行为。从方程 6. 21能看出，如果特征值中有任何正实数 
成分，则线性微分方程系统将随着时间的增加呈指数增长（由于指数因素）。所 
有这些系统都被认为是不稳定的，因为这些系统缺乏关于均衡点的收敛特征。 
如果所有的特征值都存在负实数部分，那么系统将会随时间的增加而收敛，并 
保持稳定。而且，如果特征值中包括虚数部分，这个系统将呈现震荡的行为。 
因此,包括虚数部分和所有负实数部分的系统将会有螺旋形趋近均衡点的轨 
迹。这些系统是震荡但稳定的。包括虚数部分和至少一个正实数部分的系统 
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注: 稳定的系统要求特征值中存在负实数部分.即复平面的阴影部分。 

图 6. 7包括微分方程系统的特征值的复平面(；1=:<:+>7') 

将从均衡点螺旋形往外运动，这些是不稳定的震荡系统。当至少一个特征值是 
虚数，且剩下的特征值的实数部分是负数时.岀现的是中性均衡，即围绕均衡点 
的轨迹。从上面的讨论可以看出，如果所有的特征值都处于图 6. 7的左边（阴影 
部分），则线性微分方程系统的均衡点附近的轨迹都是稳定的。读者应该注意 
到，当我们讨论非线性系统的均衡点附近的稳定性标准时，会在下一章发现 
图 6. 7的用处。 



第 7 章 I 非线性微分方程系统的稳定性分析 


第6章关于一阶线性微分方程系统在均衡点的稳定性的讨论能延伸到非线 
性方程。由于许多社会科学模型都是非线性的，所以这点也非常重要。实际 
上，线性模型更像是常规中的例外。 

求解非线性微分方程系统的问题是，方程 6. 12的系数矩阵 A 在非线性方 
程中不存在。然而,若意识到能把相位空间中均衡点附近的非线性模型线性 
化，这个问题就能很容易地解决。也就是说，当我们检验均衡点附近的非线性 
系统的稳定性时，我们能使用非线性系统的线性部分来得到这个区域的非线性 
系统行为的精确刻画。在一般情况下，非线性系统在均衡点附近和线性系统中 
的行为非常相似。虽然也有可能出现例外，但这样的例外在实际中很少遇到。 
这意味着，虽然我们现在处理非线性系统，但我们持续沿用第6章介绍的均衡点 
稳定性 分类。 


雅可比矩阵 


把任何非线性微分方程系统线性化的关键是建立系统的雅可比矩阵（简称 
为“雅可比”）。雅可比是方程 6. 12的系数矩阵 A 的等价线性矩阵。虽然大部 
分学科把这个矩阵称为“雅可比矩阵”，但一些学科也用其他称谓。例如，在群 
体生物学的研究中,雅可比矩阵常被称为“群落矩阵” ( May ， 1974)。首先，对每 
个方程的所有因变量求偏导数，然后把因变量的均衡值代人这些表达式中，从 
而得到雅可比矩阵。雅可比矩阵的第一行对应于系统的第一个方程，矩阵的第 
二行对应于系统的第二个方程，等等。雅可比矩阵的第一列对应于第一个因变 
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量，第二列对应于第二个因变量，等等。所有这些完全与线性系统的方程 6. 12中 
系数矩阵 A 的结构相类似(实际上，线性系统的雅可比矩阵是系数矩阵 A )。 

例如，两个因变量[/( I ， ： y ) ，: y )] 的两个微分方程组成的系统的雅可 
比矩 阵是： 


W ， y *) 

djo 

j y* ) 
dx 


r7fCr* ， y* ) 

9 总 （ JT * ， 3；* ) 

3 y 


[7.1] 


求解非线性系统在特定均衡点处的雅可比矩阵之后，稳定性分析就如前面 
章节描述的线性系统那样。也就是说，雅可比矩阵的特征值也可以像从方程 
6. 12的系数矩阵中求得特征值那样求得。一旦求得特征值，非线性系统在均衡 
点附近的行为就可以根据前面章节讨论的线性系统的6类均衡稳定性来分类 
(如非稳定的节点、稳定的节点、鞍点、不稳定的螺旋线、稳定的螺旋线、椭圆）。 
需要重点强调的是，这类线性化稳定性分析仅仅适用于均衡点附近的区域，超 
出这个区域，就应该使用前面章节介绍的数值和画图方法。那么，应该是多近 
的距离呢？这依赖于当轨迹远离均衡点时，非线性项的相对影响。这在下面的 
讨论中将具体说明。 

在这一点上，我们退一步 问：为 什么一个非线性系统的线性化等价项能用 
来评价均衡点的稳定特征，而这个线性化的项离均衡点较远的时候却不能呢? 
首先，我们引进两个非线性微分 方程： 


cbc/dt — fix, y) 
dy/dt = g(x, y) 

我们可以关注在这个均衡点附近， （ x 。， 加）的行为怎样。然后通过下面的变换 
把这个均衡点移到 原点： 

u = x — x 0 [7. 2] 

^ ^ — 3^o [7. 3] 

现在非常明显，当: r 和: y 在均衡点附近时，新变量会接近原点 (Blanchard et al . ， 
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2006:458—460) o 

根据新变量 w 和 z ， 我们能把系统重写成下面的方程，其中，: r 。 和 > 是 
常数： 

du/dt = d{x — x 0 )/dt = dx/dt — /(x, y) 
dz/dt = d{y — y 0 )/dt = dy/dt = g(jc, y) 

从方程 7. 2 和方程 7. 3 可以 看岀： 

du/dt = /(x 0 + w ， 3； 0 + z) 
dz/dt = g-(x 0 ~\~u, y 0 +z) 

在原点附近，和 z 接近原点，在均衡点时， 

du/dt = /O 。 ，： y。） = 0 [7. 4] 

dz/dt = g{x 0 , : y。）= 0 [7. 5] 

我们要注意，一旦通过变量转换把均衡点移到原点，那么在均衡点附近，非线性 
项比线性项更小。例如，如果 *r = 0. 1 ， ：y = 0. 1，那么: r：y = 0.01。因此，在均衡 
点附近，线性项主导着系统。对于任何两个相互依赖函数的最好的线性近似是 
正切平面。这个正切平面和函数的泰勒多项式近似的线性项一样。因此，会 
得到： 

du Vdf 1 rdf i 

-j- ^ /(x 0 9 >) + » ^o) u + — (jc 0 9 y 0 ) z [7. 6] 

ClL Ldx 」 Ldy 」 

舍义 _g"(jr 。 ， 3 /。）+ ， 3 ;。）u + -^(,Xo 9 y 0 ) z [7. 7] 

请注意，根据方程 7. 4 和方程 7. 5,方程 7. 6和方程 7. 7右边的第一项都为0。 
方程 7. 6和方程 7. 7的剩余项以矩阵形式表示， 得到： 

du/dt [u 

dz/dt [z, 

其中， J 是方程 7. 1 定义的雅可比矩阵。 

请注意，变量《和 z 的变化仅仅表示在均衡点附近的非线性项消失。我们 



242 


社会科学中的数理基础及应用 


不再需要变量的变化来评价微分方程系统的稳定性，仅需要雅可比矩阵，而雅 
可比矩阵仅仅依赖于原始变量 工和 5。 

虽然上面包括变量变化和雅可比矩阵的讨论都对应于布兰查德等人 
(2006:458 — 460) 使用的标识和重点，但读者应该注意，这与微分方程文献的传 
统表示方法的不同。由于这不仅符合本质要求，而且非常具有一般性,所以我 
更喜欢上面的表示方法。然而，读者会注意到，更常用的方法是模拟均衡点附 
近的扰动，并观察这些扰动是衰减还是加剧。如果这些扰动衰减，则这个均衡 
点是稳定的，这是因为，这些轨迹最后都会收敛到均衡点。如果这些扰动加剧， 
则这些轨迹从均衡值往外发散，这个均衡点就是不稳定的。这两种方式都使用 
雅可比矩阵。这种方法和我偏好的方法的主要区别是，前者不需变量有所变 
化。然而，泰勒级数在均衡点附近直接近似。虽然这在数学上与我前面介绍 
的内容相类似，但失去了本能的理解，即为什么在均衡点附近，非线性项很小 
因而可以忽略。当把均衡点转到原点时，这就变得很明显。从生态群体的视 
角用一个更传统的方法来呈现这个问题的讨论能在梅 （1974: 19— 26) 的文章 
中找到。对于其在社会科学中的应用，也可参见赫克费尔特等人 (1982: 40— 42) 
的研究。 

现在，我们从本章的角度来重新考虑非线性猎食模型(方程 3. 1和方程 3. 2)， 
用图 3. 3使用的参数值 ，<2 = 1，6=1，£' = 3, e = 1 , m = 0 , n = 0 „ 我们也可 
以看到，这些参数值生成了围绕系统中心点的椭圆轨迹使用相位图，其均衡点 
是(1/3, 1)。我们想确认使用系统的雅可比矩阵的分析，这个系统如方程 7. 8 
和方程 7. 9 所示： 

dX/dt = X-XY [7. 8] 

dY/dt = 3 XY-Y [7. 9] 

这个系统的雅可比矩 阵是： 


( 1 * » ' 
1 — y — x 


<0 -1/3、 

、 3， 3 x * —\ J 


、3 0 , 


其中，？和 y 分别表示均衡值1/3和1。 
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现在，我们把这个均衡值代入雅可比矩阵中，并求特 征值： 

0 -A —1/3、 

det =0 

3 0 — A , 

这能生成特征方程 A 2 +l =0或 A =± ^/^ T 。因此 ， A =±/是纯虚数。从 
关于线性系统的前面章节的结果来看，我们知道，这个系统的解形成了围绕中 
心点（1/3, 1) 的椭圆轨迹。使用这种方法的唯一限制是，关于因变量的椭圆轨 
迹的结论仅仅适用于位于均衡点附近的相位空间区域，如这个例子所示，有时 
也可能发现轨迹行为持续远离均衡点。但是，非线性模型都有例外，这就要用 
其他方法来确认，例如方向场域和流动场域。 

本章小结 

本章把微分方程的讨论延伸到非线性系统的分析。许多有趣的微分方程 
的应用都有非线性成分，因此把我们的能力局限在线性微分方程并不是个好选 
择。对于非线性的情形，我们致力于描述在均衡点附近的任何给定系统的稳定 
性，这是更完整地完成系统分析的一部分，系统分析也用其他方法(如本书前面 
介绍的图示法)来评价一些系统的更全面特征。非线性系统的稳定性分析的关 
键是雅吋比矩阵。雅可比矩阵能把在均衡点附近的系统线性化，因此能基于系 
统特征值的标准化稳定检验。我们现在转向图 6. 7,会发现用线性方法来描述 
系统的稳定性是一样适当的。两种方法的区别在于，这些非线性实例是位于图 
6.7 的局部雅可比矩阵的特征值，而不是整个线性系统的特征值，而稳定性特征 
就局限在均衡点附近的非线性部分。 



第 8 章 I 研究前沿 


所有类型(混沌或其他方法）的周期行为都与人的行为有很大的关系。我 
们每天晚上睡觉，每天早上起床，在固定时间 吃饭; 我们在固定的时间 选举； 我 
们每10年进行一次人口普查，收集 数据; 我们根据其他选举和社会周期来执行 
人口 调查; 我们的行为甚至随季节发生变化，即每个夏天游泳，每个冬天滑雪。 
一般情况下，人类几乎总是重复性地活动。微分方程和差分方程都是分析许多 
类型的周期行为的理想模型，社会科学家经常利用这些方程，将会大有收益。 
许多关于人类活动周期的研究是关于微分方程应用的前沿研究的一个实例。 
无论如何，这也不完全是一个从未探索过的研究前沿。这也是为什么当我们把 
微分方程应用到科学研究时，会非常兴奋的原因之一。 

本书仅仅对微分方程研究进行了初步介绍。微分方程的研究中还有很多 
领域没有被包括在本书范围内。例如，有可能存在这样的动态系统，它们不能 
用前面章节介绍的图示法（如相位图、方向场域图、向量场域图等等）来分析。 
并不是说这些方法没有用，而是说需要附加的工具来解决更复杂情形下遇到的 
一些问题。当周期行为没有按预期那样重复时，这种情形就可能发生,这是三 
维或更多维的混沌微分方程系统的一个特征 ( Brown ，1995 b )。 当自 变量？ 清晰 
地包括在方程中时，这也发生在许多二维非自治系统中。在非自治情形中，向 
量场域(定义为微分方程）随着时间的增加而改变。超出本书的其他方法（如 
Poincare 地图）也能用于这个系统的分析。 

在一般情况下，许多有趣的微分方程系统能产生混乱的结果，实际上，混乱 
在本质上非常正常。例如，当水分子随着河流流动时，不管控制这些运动的物 
理法则是什么，都不可能基于它们在上游的位置来预测它们最终在下游的精确 
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位置。 这也不是因为我们没有足够的信息。相反，这是这些系统的一个特点， 
即初始条件表面的细微变化能使得系统随时间变化而产生巨大的变化。此外， 
我在其他地方也有相关介绍 ( Brown , 1995 b )， 这也是想进一步研究微分方程的 
学生下一步学习的一个方面。 

在数学研究的许多领域，大学本科学生实际上很少能遇到学者们在实际研 
究中所遇到的数学问题。为了看到真实研究是什么，学生需要进一步接受关于 
数学方法的研究生教育。但微分方程的研究有些不同。这是本科生和高级研 
究人员都会在这个领域面临的相同的问题，这也是为什么微分方程研究这么盛 
行的原因之一。在进行至少一项前沿研究前，没有必要继续深人研究这个 
问题。 

如果微分方程的研究在一般情况下是真实的.那么，微分方程在社会科学 
中的应用甚至会更真实，这一点非常明显。虽然有很多用微分方程解决重要社 
会科学问题的例子(这些本书均有介绍），但我们现在也仅仅是接触到冰山的一 
角。对于社会科学家，未探究的前沿研究比已经探索的领域更宽广。对于希望 
在这方面继续深入研究的学生，不管你对未来的设想是线性的还是非线性的， 
你现在都处在学习的正确时点上。 



附录 


附录1 

为了说明这些公式如何在实际中使用，下面的程序(用 SAS 编写，很容易改 
成其他语言)介绍了如何画学习曲线。很重要的一点是介绍如何编程，因为许 
多社会科学家发现，他们不可避免地会遇到需要编写他们自己的 RK 4 模型的情 
形。有一些软件包自身包栝 RK 4 法，一些科学家发现，这些软件包很有用，但其 
他科学家可能发现，这些软件包在处理特别真实的情形时，缺乏足够的灵活性， 
因此有必要用 RK 4 法编写自己的模型。最明智的做法是,一旦用 RK 4 法编写 
了一个模型，就可以把这些程序剪切并粘贴到其他程序中。记住，只需要做小 
小的改动(如步长、初始条件、参数值），同样的编码几乎适用于所有微分方程。 

对于下面的编码，大写仅仅是一种体例，是否大写不影响程序的运行。下 
面有两个子 程序: RK 4 和 EQS 。 BUILDIT 是子程序 RK 4 和 EQS 下面的标签， 
RK 4 子程序在那里调用。 EQS 子程序在 RK 4 子程序下调用，它下面即微分方 
程模型。 

GOPTIONS lfactor =10 hsize = 6 in vsize = 6 in horigin = 1 in vorigin = 3 in ； 

TITLE f = swissb h = 1. 6 c = black ’Figure 2. 3 ： A Learning Curve ' ； 

PROC 工 ML; 

a =3.0; *模型的参 数值； 

Y =0.1; U =1.6； * Y 的初始条件和上限 U ; 

H = 0. 02； time = 0； •>< •步长 h 和时间的初始值； 
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START ； 

GOTO BUILDIT ； 


RK 4： 

* 四次 Runge~Kutta 法； 
time = 0 ； 

DO LOOP = 1 to 100； 

ml = Y ； * RK 4 第一步是把因变量的初始值设为 Y ; 

LINK EQS ; * 把方程的子程序连接到 RK 4 的第 一步； 

RK 1 = DYDT | * 完成 RK 4 第一步； 

ml = Y + (,5# h # RKl )； * 现在给出用在 RK 4 第二步的 ml 第二 个值； 
LINK EQS ; * 把方程子程序连接到 RK 4 的第 二步； 

RK 2 = DYDT ； * 完成 RK 4 第二步； 

ml = Y + (,5# h # RK 2)； * 现在给出用在 RK 4 第三步的 ml 第三 个值； 
LINKEQS ； * 把方程子程序连接到 RM 的第 三步； 

RK 3 = DYDT ； * 完成 RK 4 第三步； 

ml = Y + h # RK 3； * 现在给出用在 RK 4 最后一步的 ml 第四 个值； 

LINK EQS ； * 把方程子程序连接到 RK 4 的最后一 步； 

RK 4 DYOT ; * 完成 RK 4 最后一步(或第四步）； 

YNEXT = Y + ( ( h /6) # ( RK 1 + (2# RK 2) + (2# RK 3) + RK 4) ) ； * 这是 RK 4； 


timenext = time + h ； 

YE = YE//Y; TE = TE//time ； * 以向量形式保存 Y 和 T 值 ; 
Trajects = YE || TE ； 

Y = YNEXT; time = timenext ； 
end ； * 循环 结束； 
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RETURN ； 

* 使用不同的 Y 值作为 RK 4 四步的 ml 值得到的学习曲线 模型； 

EQS ： 

DYDT=a#(U_ml )； * 这是 模型； 

RETURN ； 

BUILDIT ： 

LINK RK4 ； 

party = { r 'Time r )； 

create traject from trajects( | colname = party | )； 
append from trajects ； 
close trajects ； 
finish ； run ； 

data traject ； set traject ； * 画图； 
sym = 1 ； 

symbol 1 color = black v = none f = simplex i = join ； 
proc gplot data = traject ； 

axisl color = black minor = none order = 0 to 2 by. 2 minor = none 
value = (h = 1.5 f = swissb c = black) 

label = (a = 90 r = 0 h = 2 f = swissb c = black 'Dependent Variable ? ) ； 
axis2 color = black minor = none order = 0 to 2 by. 25 minor = none 
value = (h = 1. 5 f = swissb c = black) 
label = (h = 2 f = swissb c = balck 'Time r )； 
plot Y * time = sym/skipmiss nolegend 

vaxis = axisl haxis = axis2 vminor = 0 hminor = 0 vref =1.6 ； 
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run ； 

quit; 

附录2 

下面是用 RK 4 法求解两个方程的系统的 SAS 程序。读者应该能发现，把 
其中的单个微分方程的程序扩展到下面的微分方程系统是件很容易的事。图 
3.2 就是用这个程序画出来的。最后，我也介绍了如何稍微改动这个程序，就能 
画出如图 3. 4这样的相位图。附录的说明有助于理解 RK 4 法的计算过程。 
QOPTIONS If actor =10 hsize = 6 in vsize = 6 in horigin = 1 in vorigin = 3 in ； 
TITLE f = swiss h= 1. 6 c = black f Figure 3.2: The Predator-Prey Mcxfel '； 
PROC 工 ML; 

a = 1 ； b = 1 ； c = 3 ； e = 1 ； m = 1. 5 ； n= 0. 5 ； 

X= 1 ； Y = 0.2 ； 

h= 0.1 ； tlme= 0; * 步长 h 和时间的初 始值； 
start ； 

goto buildit ； 

RK4 ： 

* 四次 Runge-Kutta ； 
time = 0 ； 

do LOOP = 1 to 125 ； 
xl = X ； x2 = Y ； 

LINK EQS ； 

RK1 = DXDT ； CK1 = DYDT ； 

xl = X+ (.5#h#RKl) ； x2 = Y+ (.5#h#CKl )； 

LINK EQS ； 
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RK2 = DXDT ； CK2 = DYDT ； 

xl = X+ (.5#h#RK2) ； x2 = Y+ (.5#h#CK2 )； 
LINK EQS ； 

RIG = DXDT; CK3 = DYDT ； 

xl = X+ (h#RK3) ； x2 = Y+ (h#CK3 )； 

LINK EQS ； 

RK4 = DXDT ； CK4 = DYDT ； 


XNEXT = X+ ( (h/6) # (RK1+ (2#RK2) + (2#RK3) +RK4 ))； 
YNEXT = Y+ ((h/6)#(CKl+ (2#CK2) + (2#CK3) +CK4 ))； 


timenext = time + h ； 

YE = YE//Y ； XE = XE//X ； TE = TE/Ztirae ； 
trajects = XE || (YE || TE )； 

Y = YNEXT ； X = XNEXT ； time = timenext ； 
end ； 

RETURN ； 


* 猎食 模型； 

EQS ： 

DXDT= (a-b#x2-m#xl) #xl ； 
DYDT = (c#xl - e - n#x2) #x2 ； 
RETURN ； 


BUILDIT: 


LINK RK4 ； 

party = j ’X M Y ， 'Time ')； 
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create traject from trajects ( | colname = party | )； 
append from trajects ； 
close traject ； 
funish ； run ； 


data traject ； set traject ； 
sym = 1 ； 

if t = 0 then sym = 3 

label Y = 'Predator and Prey Populations 1 ； 
label t = ’Time 1 ; 

symbol 1 color = black v = NONE f = centb i = join ； 

symbol2 color = black f = cent±)v = symbol 1 color = black v = 

proc gplot data = traject ； 

axisl color = black minor = none 

value = (h = 1. 5 f = swissb c = black) 

label = (h= 1. 3 a = 90 r = 0 f = swissb c = black )； 

axis2 color = black minor = none 

value = (h = 1. 5 f = swissb c = black) 

label = (h = 1. 3 f = swissb c = black )； 

plot Y * Time X * Time/overlay nolegend skipmiss 

vaxis = axisl haxis = axis2 vminor = 0 hminor = 0 ； 



修改这个程序就能得到如图 3. 4 所示的相位图，只需修改上面命令的后半 
部分。例如，要得到图 3. 4,就用以下命令代替上面程序的后半部分： 


data traject ； set traject ； 
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if t = 0 then syn = 3 ； 

label Y = r Predator Population '； 

label X = 'Prey Population '； 
label t = 'Time 1 ; 

symbol 1 color = black v = NONE f = centb i = join ； 
symbol2 color = black f = centb v ='； 

proc gplot data = traject ； 

axisl color = black minor = none 

value = (h = 1. 5 f = swissb c = black) 

label = (h= 1.3 a = 90 r = 0 f = swissb c = black )； 

axis2 color = black minor = none 

value = (h= 1. 5 f = swissb c = black) 

label = (h = 1. 3 f = swissb c = black )； 

plot Y * X/nolegend skipmiss 

vaxis = axisl haxis = axis2 vminor = 0 hminor = 0 ； 
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i 译名又 

t 照表 a 

'' 1 

analytical solutions to linear first-order 

differential equations 

一阶线性微分方程的分析解 

army losses 

军队损耗 

autonomous differential equations 

自治微分方程 

catastrophe theory 

灾难理论 

chaos theory 

混沌理论 

closed systems 

封闭系统 

coefficient matrix 

系数矩阵 

correlational analysis 

相关分析 

cross-tabulation tables 

交叉表 

deterministic differential equation models 

确定性微分方程模型 

direction field diagrams 
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第 1 章 I 定义 



比较既是科学的根本法则，又是日常生活的基本要素。它是一个自发的心 
智过程，所以，“没有比较，不成思考” ( Swanson ， 1971:145)。我们常常在进行比 
较 :商店 里的绳子是长还是短，明天的天气是好还是坏，衣服的尺码是大了还是 
小了，列车到达是早还是晚，诸如此类。简单的“人口密集”这个词就已经隐含 
了比较 ( Smelser ， 1976:3)。在社会科学中，研究者比较不同城市的生活质量、 
不同国家的政府稳定性、不同社会群体的经济行为，还有仪式对社会凝聚力的 
影响等。与“分类”一起 （ Bailey ，1994) ，比较是理解世界的关键概念化过程 
之 一*。 


对象、属性与取值 

“比较”最简单的定义如 下：比 较是两个及两个以上的对象或个案（观察单 
位)的属性(特性)之取值(差异单位)的并置。例如，民主化(属性)在英国(对象) 
较早完成(取值），而在俄国则被延误了。 

若我们比较不同时期的同一对象，这一定义同样适用。意大利的选举变动 
率 ® 在1948年和1983年分别是 23. 0和 8. 3。这里的比较对象是不同年份的选 
举。也就是说，比较关注的是 变异: 一个变量在不同个案之间取值的差异。 

首先，比较意味着描述变量。与解释和预测一样，描述是科学活动的主要 


①选举变动率有多个含义，最常见是两次选举中变换自己所支持党派的选民的比例。感兴趣 
的读者可参见 http ： //www. answers, com/topic/electoral-volatility„ - 译者注 
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任务之一。描述性比较关注两个及两个以上个案的相似与相异程度。描述性 
比较可以是以下几种：（1)名义的（或定类的)——属性存在与否以及属性的不 
同类别(例如，瑞士的选举系统是比例代表制，而英国的则是多数制）①; （2) 定序 
的——比较多或少.比较时间的早或晚、快或慢（例如，英国的国家形成比瑞士 
更 早）； （3) 定量的(定距的或者比例的），变量取值是连续且可量化的(例如，瑞士 
有效党派的数量比英国多 2. 92个）。 

比较法作为一种方法 

存在于所有人类行为中的描述性比较，其内在特性导致了第一个问 题:如 
果比较是普遍存在的心智过程(从日常生活到科学研究），那为何我们还要把它 
称为比较“方法”？我的回答是，比较方法比起自然的心智活动，还要多一 点:它 
是一种分析现象及其因果关联的方法，即通过“如果……那么……”形式的陈 
述，利用经验证据检验因果关联的不同假设。比较法不仅是不可或缺的认知与 
描述工具，更是解释性的 ，是一项控 制变异的方法 ( Smelser ， 1976: 152) 及建立 
变 量间普遍性关系或“法则”的方法 （ Lijphart ， 1971：683, Sartori , 1970： 1035), 
最终，它是一项归纳推理的方法。 

因此，进行比较并不只是描述变异。要进行解释，必须有变异。没有变异 
(不同个案之间的分数或取值的差别），就不可能进行解释。这一点适用于所有 
类型的比较，无论是基于大样本、通过统计(定量的）技术进行的大规模比较研 
究，还是基于少数个案、通过逻辑与布尔代数进行的小规模比较研究。尽管“比 
较法”日益等同于第二种方法(小样本），但根本原则是一致的。事实上，大部分 
比较方法的实践者都同意，“定量的”和“定性的”技术存在一些基本共同点。 

相应的，我们可以这么定义比较方 法:它 是一组利用经验证据，系统地检验 
现象之间因果关系备择(或竞争性)假设的逻辑程序，要么确证，要么拒绝它们。 


①比例代表制以每一参选组所得选票占全部票数 H 的百分比分配议席•而多数制的原则是“胜 
者全取”，即该选区得票多的党派获取该选区全部议席。——译者注 





社会科学中的数理基碯及应用 


比较方法的目标是发现类似于规律的“因果律” （ Skocpol , 1984 a ： 374—386) 0 
当然，这一分析路径并不是执行比较研究的唯一方法 ( Peters ， 1998:9—11)。比 
较研究者还运用其他方法，比如因果诠释，但这些并非控制方法，因为它们没有 
利用经验证据来检验因果关系假设 ( Skocpol ，1984 a :372)。 


比较法与其他方法 


在此必须指出，上文的比较法定义涵盖了一些其他方法。它同样适用于实 
验和统计方法，而并不局限于近年来通常认为的狭义比较法，即基于密尔法和 
布尔代数的比较法。 

这导致了第二个问题。如果说比较法与其他方法同样具有分析性特征，并 
且“比较”这一术语的确被涂尔干 ( Durkheim ) 和帕森斯 ( Parsons ) 应用到实验法 
和统计法当中，那么，比较法和其他方法的区别何在？比较法的特殊性在哪里？ 
有些学者依然认为，没有比较就没有科学思想 （ Swanson ， 19乃：145)，且无 
论何种形态的研究，都不可避免是比较性的 （ Lasswell ， 1968： 3； Lieberson , 
1985:44)。阿尔蒙德 提出： “如果说比较法是一种科学的话，那就没必要在政治 
学中强调比较法，因为不言而喻，它就是比较的。” ( Almond , 1966： 877—878 ) 由 
于比较构成了所有科学解释的核心 （ Armer ， 1973; Bailey , 1982； Blalock , 
1961； Nagel , 1961 )， 有些学者反对比较法在逻辑和认识论方面的独特性 
( Grimshaw , 1973:18)。如克林曼 ( Klingman ， 1980: 124) 所言，许多争论忘记了 
所有科学本质上都是比较的。作为认识论根本原则的控制与确证因果关系，存 
在于所有社会科学经验研究方法中。这一观点坚持认为，不同方法之间存在根 
本上的连续性。实验法之所以特殊，是因为它设法操控了变量[ 2 ]，而统计方法 
和比较方法之间“并无明确的分界线 ”（ Ijjph a rt ， 1975:159-160)。斯梅尔塞 
( Smelser , 1976) 认为，比较方法是统计方法的一个近似物。弗兰德斯 ( Frendreis ， 
1983) 强调，所有方法都基于共变。“比较研究”——跨国分析——经常基于统计 
学，所以比较的视角或策略并不预设独特的比较方法 （ Benjamin ， 1977； 
Lijphart , 1975; Pennings , Keman &- Kleinnijenhuis , 2007) 0 

比较研究往往依赖统计研究设计，有大量个案和定量的变量。在这广义的 
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定义方面，比较方法只不过是把统计方法应用到跨国研究设计中而已。 

事实上，比较法的某些特殊性存在于其独特的研究目的 中：“ 比较研究者对 
辨识宏观社会单位的共性与差异感兴趣。” （ Ragin , 1987: 6) 其独特方面包括国 
家、社会与文明之间的分析比较。在过去，“比较政治学”(尤其在美国）曾经专指 
关于其他国家的研究。时至今日，比较经常被认为是以下两个词的同义词：（1) 
跨国 研究； （2) 把宏观社会层次变量当做个体层次研究设计的控制变量 （ Prze - 
worski &- Teune , 1970)。长期以来，比较都被简单地等同于有社会层面的属性 
出现在解释性的陈述中。这一特殊研究目的设定了比较法的大框架，即利用一 
系列方法进行跨社会分析 ( Easthope ，1974 ) 。 

与此“实践性”的定义不同，另一定义方法指向以宏观社会单位为个案进行 
研究所引发的方法论后果。它强调，比较法适用于回答涉及个案数目少（小样 
本问题)的研究问题。除了更具方法论意蕴，这种定义还具有使研究不局限在 
跨社会研究设计内的优势。比较法可被应用于不同分析单位，除了地域单位, 
还可以是各种组织（比如，工会、党派、社会运动)和个体。然而，这一定义并未划 
出一条区别于其他方法的清晰界线(除了样本数量）。 

那么，到底是否存在独特的比较法呢？如果所有方法“除了样本大小”外 
( Lijphart , 1971:684)，均共享主要原则且都很相似，那为何还要谈论比较法？ 
近年来，比较法的3个独特性得到了强调 :首先 ，它依赖密尔三准则 （ Mill’s first 
three canons ) ，即求同法、求异法、求同求异并用法以及布尔代数来处理“性质” 
而非“程度”(数量 ）( 顺便说一句，这点应能帮助我们区分“比较的”和“质性的”这 
两个常被混渚的术语)。其次，它基于必要与充分条件来判断因果关系。最后， 
其解释模型本质上是组合的或构型的①。 

比较法与统计学 

根据以上这些独特方面，比较方法与统计学区别开来。通过这种分离，比 

①构型 ( configumtion ) 在有机化学中，特指一个有机分子中各个原子特有的、固定的空间排列。 
而在本文的语境中，指的是不同条件的各种搭配方式。一 _译者注 



社会科学中的数理基础及应用 


较方法已不仅是把统计学应用于跨国研究，而是一种不同于统计学的方法。近 
年来，这一方法被识别与标注为“比较法”。很明显，在比较研究领域，统计学依 
然在大样本研究设计中得到了广泛运用。然而，另一个方法 （ 比较法）已经发展 
起来 :它使 用不同的技术(密尔三法与布尔代数），对因果关系有不同的理解（基 
于必要与充分条件），并且强调自变量之间的联合性或者构造性关系（区别于纯 
粹的叠加性关系）。 

实际上，这一新的比较法与统计学的共同点比它假定的要多。首先，统计 
技术也可以处理定性的、分类的、离散的、虚拟变量和二分变量数据（不光是列 
联表，更重要的是，它在对数线性分析、 logistic 回归和 probit 模型中都可以进行 
分析，这些都在其他书中有专门论述，参见 Aldrich S - Nelson . 1984； DcMaris , 
1992； Hardy , 1993； Ishii - Kuntz , 1994； Kant Borooah , 2001 ； Knoke &• 
Burke , 1980; Liao , 1994； Menard , 2001; Pampel , 2000)。 其次，许多统计技 
术同样能够处理联合型与构造型解释模型（可以利用交互作用，在列联表中最 
明显，在回归中亦有体现，参见 Jaccard Wan , 1996； Jaccard &- Turrisi , 
2003)。 

这也意味着，常被人相提并论的“定性的”与“定量的”技术在根本原则上， 
并无多大差别。本书关注近年来人们常说的“那种”比较法，强调了狭义比较法 
的优势与特殊性，即它处理有限个案及区分必要和充分条件的能力。本书集中 
关注这种狭义比较法的特殊性，而非那种广义比较法（基于统计分析的大规模 
跨国比较的比较策略)。然而，整本书依然会以大规模统计技术作为参考，以期 
强调比较法与统计法的共同点以及统计法在哪些方面与跨国比较相关。既然 
如此，让我们首先回顾一下比较法的起源。 



第 2 章 I 历史 


比较法的逻辑起源 

既然比较强调统计法和比较法的共同点与共同根源，那么回顾比较在社会 
科学中的角色就非常重要。对比较的反思与比较在科学研究逻辑中的角色紧 
密相关。比较的历史在一段时期内，与科学和逻辑是重合的。 

在关于比较的争论中，有两种主要观点。首先，在笛卡尔哲学的角度看来， 
如果说某物是多或少、好或坏，比较就成立了。重点在于连续性的数量和程度。 
第二，在洛克传统中，重点是离散属性的存在或缺失。在17世纪，德国统计学派 
发展的这种统计学的“定性”含义，如今会被归人“比较法”中。只有黑格尔在其 
晚期统一了这两种含义，由此，属性的存在与缺失成为连续体的两个极限值。 

对19世纪的实证思想家而言，比较意味着基于实验研究设计来建立因果关 
系。约翰 • 赫谢尔 (John Herschel ) 在《自然哲学研究初论》 IXs - 
course on the Study of Natural Philosophy ) 一 书中，提供了第一■准则，但只有 
密尔的《逻辑系统 》 (A System o / LopV ) 才提出了最著名的建立因果关系之 
“准则”。 

求同法是指当某现象发生时.其他条件都可能成立,也可能不成立（不同个 
案的情况不同），而只有一个条件总是出现(所有个案的情况都相同），那就可推 
断这个(总出现的）条件是现象发生的原因。求异法是指，当现象发生时，只有 
这一个条件成立，而当这一条件不成立时，现象就不发生。求同求异并用法结 
合了这两种方法。[ 3 ]而共变法是指，若某条件随某给定现象的变化按相应比例 
变化，那么推测两者存在因果关系。 



社会科学中的数理基 《 及应用 


密尔确信他的方法不能被应用于社会科学(生物学也不行），因为研究者不 
能控制所有变量并分离出原因。然而在生物学中，达尔文表明密尔法非常有 
用，且不需控制所有变量。 

在社会学中，涂尔干认为，共变法（他称之为“比较的”)是唯一不需控制所 
有变量的方法。这一观点是错误的（因为这一方法同样要求控制，以排除虚假 
相关），但这无疑推进了定量比较方法的发展。 

涂尔干抛弃了离散逻辑，他更倾向于定量的测度。一些学者，如内格尔 
( Nagel , 1950) 和拉扎斯菲尔德 （ Lazarsfeld , 1955； Blalock &- Blalock , 1968)， 
为社会科学提出了一个新方法，宣称定性的测度应被转化为虚拟变量(以0和1为 
取值 )（Hempel Oppenheim , 1948； Lazarsfeld , 1937 ； Lazarsfeld Barton , 
1951)。 这一方法取向舍弃了使其局限于定性测度的“比较”这一术语。由此，直 
到20世纪60年代，“比较的”与“统计的”方法才正式分道扬镳。 

然而，尽管自20世纪六七十年代以来，这种区别逐渐被接受 （ Lijphart ， 
1971； Smelser , 1966) ，但模糊地带依然存在。不过最重要的可能是，所有方法 
都基于密尔准则。[ 4 ]而在密尔自己的体系中，最终，所有方法都归于求异法 

( Mill , 1875:464—466)^5] 

比较法在早期社会科学中的应用 

以上这些“比较”的不同含义及其共同点，都出现在早期社会研究中。比 
如，斯梅尔塞所著 ( Smelser ，1976:4) 关于托克维尔 ( Tocqueville ) 的书以及涂尔 
干和韦伯 ( Weber ) 对不同类型比较研究的强调。在斯梅尔塞和韦伯那里，存在 
一个独特的比 较法; 而在涂尔干那里，比较法等同于统计学。 

密尔在其1840年对《美国的民主》一书所作的评论中提出，托克维尔是第一 
个系统地利用其方法的学者。托克维尔的策略之一是辨识两个国家的两组特 
征，并认为一组特征中的差异可由另一组特征中的差异来解释。例如，在英国， 
社会阶级之间的隔阂比法国小，从而减少了群体间冲突。而有时，他则通过比 
较同一个案在不同时期的取值，或增加第三个个案来强化解释力度 （ Smelser ， 
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1976:22—30)。这些策略都遵循了求同法和求异法。 

韦伯是第一个明确区分了实验法、统计法和比较法的人。首先，他认为，实 
验法只适用于心理学研究。到目前为止，社会心理学确实是社会科学中使用实 
验法的一个分支。第二，统计法的应用应当限于大规模现象。这尤其适用于微 
观社会学和人口学等分支。第三，韦伯把比较法作为大部分社会学分析的最佳 
方法。韦伯意义上的比较法，主要适用于宏观社会学、人类学、政治学和国际关 
系学。比较法比较尽可能多的事件，这些事件在大多方面都相似，却在关键特 
征上存在差异。对韦伯而言，尽管发现一个决定性差异可能只是幻想，但如同 
密尔认为的那样，求异法最为关键，且所有其他方法均可被还原为求异法(第四 
种方法，“假想实验”，亦可归入这一类）。 

对涂尔干而言，当实验不可行时，那就仅剩“间接比较”（即统计方法）可用 
了。他认为，所有的“第三变量”都需要被控制，很显然，这是不可能的，因此他不 
认可求同法和求异法。他认为，只有共变法是能够建立因果关系的方法。《自 
杀论》就是他基于这一方法论立场的一项应用研究。 



第 3 章 I 特性 


斯梅尔塞在韦伯的基础上采用了方法的三分法(实验、统计、比较 ）（ Smel S - 
er , 1996； Smelser , 1973、 1976) ，且使得比较法成为“建立经验命题的基本方法 
之一” ( Lijphart , 1971：682； Jackman , 1985)。在此必须强调的是，尽管存在这 
种三分法，但所有方法仍是基于共同方法论原则的。此外，所有方法都涉及变 
量分析: （1) 在现象之间建立联系(实验的或者操作的自变量和因变量）； （2) 其他 
变量被控制。[ 6 ]换句话说，在所有方法中，研究者们都使用列联表 （ Lazarsfeld , 
1955:115)。 

实验的、统计的与比较的方法 

尽管通过三分法划分的这3种方法并不互斥，且三分法本身也受到批评，但 
韦伯、斯梅尔塞和利普哈特 ( Lijphart ) 等人在发展社会科学过程中广泛使用了这 
一方法。下面就这种分类进行简单回顾。 

实验法 

帕森斯指 出：“ 实验只不过是在控制条件下，生产岀被比较个案的比较法。” 
( Parsons , 1949： 743) 实验法通过有意操纵变量的取值来实现控制。 

实验法最显著特征就是，它具有人为修改变量取值的可能性。另外，在某 
些情况下，实验最显著的特征就是随机分配被试，接受处理。这种方法在保持 
其他变量取值不变的情况下，通过操纵操作变量来评估因果关系。这就允许人 
为分离观测变量，从而取得最大化的控制。当（自）变量取不同值时，比较其结 
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果，这是实验的核心特征。 

实验研究设计在社会科学中很少见。在大部分情况下，我们不可能人为修 
改现象的取值。在某些特殊领域，通过并置两组个体，准实验条件可得到 满足： 
第一组(实验组)接受刺激，而另一组(控制组)不接受。通过比较这两组的结果, 
可以检验刺激的作用。就不同学科分支而言，在社会心理学中，准实验设计很 
典型(例如，控制组和实验组这两组病人对药物治疗的不同反应），但准实验设 
计在社会科学其他领域也同样得到了 应用: 政治学(宣传力度对两个以上不同 
群体选举行为的影响）、社会学(工厂中影响工作条件的各种因素，比如灯光、颜 
色、工间休息、工作服是否包括领带，等等）、经济学(市场化与沟通策略对不同 
消费者群体的影响、价格对产品评价的影响，等等）、人类学(气候变化导致的森 
林砍伐以及对部落内部社会行为的不同影响）。 

统计研究法 

当研究者不能人为操控现象使它们变动时，变异控制就依赖于调查中 
获得的不同个案在不同变量上的不同取值。控制与解释需要有变异才能发 
生。在实验法和比较法中，自变量对因变量的作用通过它们之间的相关性 
而建立。在实验中，研究者在自变量取值发生改变后，寻找其与因变量取值 
变化的相关性。在统计法中，研究者寻找个案之间两个及两个以上变量取 
值的相关性。 

同样，通过让那些可能影响关键关系的变量取常数.使得控制“第三”变量 
得以实现。既然不能人为保证这些因素不变，那就把个案按照相似取值划分到 
不同组中。为消除年龄对教育水平与政治参与度关系的影响（年轻一代教育程 
度更高，同时政治参与度也与年长一代不同，这会导致教育与政治参与度两者 
之间的虚假相关），样本被分成不同的年龄组，并在每一个年龄组中检验教育与 
参与度的关系。 


比较研究法 


利普哈特提 出：“ 比较法不过就是在相对不利但可改进的情况下的统计方 
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法。” ( Lijphart ， 1975: 163) 这再次指向了方法间的共同性。 

首先，与其他两种方法一样，比较法同样基于变量之间的相关性。例如，布 
伦纳 ( Brenner ) 关于前工业化欧洲农耕结构的文章，就利用农奴制在欧洲东部的 
兴盛和其在西部的衰落来解释经济变迁的不同水平 ( Skocpol ，1984 a ：381) 0 

其次，与实验法和统计法一样，比较法通过把个案划到具有相似变量取值 
的不同组中，来消除“第三”变量对关键关系的影响。 

人们经常称比较法的特性在于，相对统计法而言，它不是基于“越多……则 
越多……”或“越多……则越少……”这种形式的相关性，而是基于二分数据(现 
象发生还是不发生）。因此，它依赖密尔的归纳逻辑三 准则: 求同法、求异法、求 
同求异并用法。使用这一方法的学者宣称，比较法是一个更为稳健的方法，因 
为它可处理个案数量不足这种“不利情况”。必须再次指出，尽管如此，比较法 
与统计技术的共同性依然很强。统计学在最近这些年发展出有效的技术来处 
理二分与定类变量。此外，这些方法宣称适用于那些个案数量过小而难以通过 
偏相关进行系统性控制的情况 ( Lijphart , 1971:684)。但在此情况下，差异还是 
被夸大了。事实上，如前所述，争论只是指向比较研究的两个不同 传统: 一个传 
统基于大样本统计和定量设计，并主要应用于跨国 分析; 而另一传统则基于小 
样本逻辑与定性设计。这些区别将在下文进行讨论。 

总之，在此需要强调两点。第一，尽管这3种方法已被后来的学者认为 
是3种独立的方法，但它们并不互斥。例如，（准）实验数据常通过统计技术 
进行分析。第二，统计技术经常被应用在比较的情境下，例如，社会调查数 
据或投票行为常在跨国视角下进行分析。这么做并不意味着使用了一个独 
特方法。 

比较的 类型： 大样本与小样本 

有限数量的个案经常与研究问题联系在一起，这使方法和目标之间的相关 
性非常高。近年来，随着社会科学和数据收集技术的发展，“个案”数量增加了。 
这导致比较研究分化成基于统计技术的大样本“宏观分析”的比较研究和基于 
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一些典型个案的小规模“对比取向”的比较研究 （ Evans - Pritchard , 1963： 22, 
Skocpol & 1 - Somers , 1980)。在此过程中，比较分析形成了两个不同方向。 

首先，行为主义者与过去的制度的、历史的整体比较决裂，形成了以“量 
化”为通用语言、大规模比较、利用统计技术分析个体数据的方法。这一方法 
近来被称为“大样本”变量取向的研究。对全世界社会系统与西方现代化模式 
趋同的期望，带来了什么都是“可比的”这种想法。同时，这种通过定量指标 
对通用分类进行操作化，进而对不同社会进行分析的信念，随着计算机革命和 
大量电脑数据统计分析技术的发展，得到了加强。这类研究是“比较的”，因 
为它们分析不同社会、文化、文明以及政治系统，但从方法论上讲，它们属于 
统计分析。 

其次，自20世纪60年代以来，社会与政治系统的趋异而非趋同，使得学者 
们转向更有限的(更实际的）比较，比较同质性地区的有限个案。对社会和政治 
情境的重新关注意味着回归到定性的(例如，离散的、分类的、名义的和二分的） 
测度层次、小规模比较和历史与制度的数据(不能利用统计技术进行分析）。新 
技术是在密尔逻辑和布尔代数的基础上发展起来的。这一取向如今被称为“小 
样本”个案取向的研究，因为它更关注个案整体，而非单个变量。 

大规模比较研究 

关于“比较方法论”的著作与比较调查分析及多/跨国研究这两个新领域同 
步发展。20世纪五六十年代，美国和欧洲组织了大量的跨国研究，这带来了国 
际社会科学的合作，并形成了国际性研究团队。这一发展的结果是，国家的数 
量(样本数)增多了，基于大量个案的研究也增多了。 

大样本比较研究都基于统计研究设计。[ 7 ]正如前面提到的，“比较的” 
这一名称在此不指代一个独特方法，而更多的是指研究设计中出现了国家， 
国家在这里只是被当做“情境”变量，代表在解释性陈述中，民族国家或社会 
层面的属性。一国的宏观社会层面（因素）被当做个体层次解释性陈述的控 
制变量（或者说残差变量 ）（Przeworski &■ Teune , 1970 ； Teune Ostrows - 
ki , 1973)。 
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在大规模比较研究中，比较方法作为基于统计设计的研究策略出现，而这 
种策略包含了大量的国家。这一广义的比较法定义强调了设计(在变量和个案 
数目之间的平衡、指标与数据的可比性等），而不是具体的逻辑过程。 

“比较法”这一名称被用于指代一种特定技术，并不表示比较分析不可以使 
用统计技术。恰好相反，许多十分重要的比较研究本质上都是统计的，关于比 
较最有影响的一本书，正是介绍如何使用统计为比较服务的 （Przeworski & 
Teune , 1970)。在此情况下，“比较方法”这一名称，与其说是区分岀了一种独特 
方法，不如说在国家作为观察单位的层次上，比较法被包括在统计研究设计中， 
作为操作或控制变量。 

统计技术，例如列联表、方差分析、因子分析、相关分析、多元回归、对数线 
性分析等等，常被用于比较研究(例如，跨国研究或更一般而言，跨部门研究）。 
本书的目的并非回顾可用于此类研究的统计技术涉及统计设计的跨部门分 
析，可通过以下两种方法 进行： 

第一，利用个体层次个案。将个体数据（例如，社会调查数据）按照国家 
或者其他跨部门层次分开，然后把总体跨部门层次变量作为干预变量或控 
制变量（例如，某研究关注在不同国家之间的宗教派别对堕胎看法影响的差 
异，我们希望考察在具有不同移民整合传统的国家之间，这种关系是否依然 
成立）。在此例中，“国家”不如变量（作为移民整合传统类型上的得分的载 
体)重要。 

第二，利用跨部门个案。将数据从跨部门（地域)单位那里收集而来，比如 
国家。同时，利用统计技术把国家本身当做个案来进行分析（只要样本够大，这 
完全可行）。举个例子，对30个 OECD 国家(经济合作与发展组织）的劳工管制 
和失业率水平进行分析。在此例中，“国家”是重要的，因为它们代表了劳工管 
制和失业率水平分数的变异。 

在一国之内进行的社会调查不能被认为是比较研究。但如果这个调查覆 
盖了两个及两个以上国家,那在此意义上，它就成为了“比较的”研究。这不表 
示说它使用了独特的“比较法”，它只是在跨国语境下进行的统计设计。同样， 
利用150个国家定量数据进行的统计分析，或许可被认为是“比较的”，尽管它基 
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于统计技术。在这两个案例中，我们讨论的是一种比较的视角或策略，而非一 
种比较方法。 

小规模比较研究 

相当部分的比较研究都基于一种特定方法——比较的-一区别于统计方 
法。许多比较研究分析很少数量的个案。这与研究问题相关。在许多领域， 
经验个案的数目小到无法进行统计推断，“社会革命的数量太少了” （ Ragin , 
1987:因此那些处理只有少数个案的研究问题的学者把“比较法”与大 
规模比较研究区别开来。这些文献提出一种独特方法。他们强调的不是研究 
设计，而是独特的逻辑过程，这一逻辑过程基于必要与充分条件、密尔法则以 
及布尔代数。大规模比较研究学者把比较法当做统计学在大规模样本研究设 
计中的应用.而小规模比较研究学者就把比较法当做把逻辑或布尔代数应用 
到少数个案中。 

例如.斯考切波在她关于革命的研究中，发展出一种区别于大规模比较中 
使用的多元统计方法的特定比较逻辑 （ Skocpol ，1979： 36—37 ； 1984 a ： 378— 
379)。同样，拉津区分了“个案 取向” 方法与“变量取向”方法 ( Ragin ， 1987； Ra - 
gin &- Zarcr , 1983)。 “比较法”这一名称只属于个案取向方法，以求同法和求异 
法为 代表; 而变量取向方法则等同于统计方法。个案取向方法使得小样本研究 
可以要求一个新的方法论地位，而不再被视为“不完美”的统计设计。 

深入与宽泛的研究设计 

大样本与小样本比较研究设计的差异最终体现在变量和个案数量的平 
衡上。 

如果一项研究设计关注少数个案，又有许 多变童 ，那么，这就属于深人 
比较研究。而如果一项研究设计包含了少数变量，却有大量个案，那么这属 
于宽泛研究分析。这种深入与宽泛研究设计的对比可用下面这个数据矩阵 
表示： 
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特征/属性的数量 
(变量） 



在此需要提及的是，最近有一场争论正在展开。“个案取向”方法宣称，具 
有统计技术不具备的几项 优势: 个案取向方法是一种更深入的分析 类型； 变量 
取向方法把个案拆分成变量，且个案整体的特殊构造被忽视，因此可被视为是 
还原论的。然而就目前来看，学界对个案取向技术是否能比多元统计技术更好 
地处理名义和虚拟变量 ( Goldthorpe ，1997 a 、1997 b ) 尚未达成共识。统计技术 
近年来在这些方面有长足进步。而有些批评则认为，个案取向方法是历史的倒 
退(关于这个争论的各种观点，在第8章和结论部分有所提及）。 




第 4 章 I 个案与变量 


个案的选择 

分析单位 

比较研究可利用尽可能多的个案。不仅如此，比较法还适用于不同类型的 
分析单位。比较法的应用并没有什么逻辑限制，因为逻辑程序独立于比较单位 
的数量与类型。 

有4种主要的比较单位 类型： 

第一，个体单位。尽管并不常见，但比较法的确可应用于个体层次。比如， 
领袖研究(沟通式官员、继任者对党派凝聚力的影响、革命领袖的人格，等等)。 

第二，地域(跨部门)单位。这是比较分析的“典型单位”。地理和空间单位 
包括各级政 府:地 方政府(公社、县）、省或地区、联邦单位(美国的州、德国的邦） 
以及民族国家。地域单位并不一定要按照客观边界或数据本身来定义，亦可由 
非客观属性定义。马克斯 • 韦伯分析为何资本主义在西方而非在东方兴起时， 
就分析了一国内部天主教和新教地区的差异。 

第三，功能单位。比较经常在群体、运动和组织间进行。这种比较关注政 
治党派或部落、工会、(议)院外活动集团和利益团体或家庭结构（一国之内或跨 
国）。比较研究设计会比较一国之内的和平主义运动和女性主义运动，或跨国 
的两个及两个以上党派的意识形态。功能单位也可以包括国际组织（比如，比 
较欧盟与北美自由贸易协定国家，比较国际货币基金组织与世界银行）、在市场 
分析中的消费者群体，或者人类学研究中的不同部落。 
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第四 ，时间单位。目前对时间单位而言，我们首先需要区分时点和时期 
( Bartolini , 1993:147—153)。举个经济学的例子，比较时点《和 r + 1的通货膨 
胀就是时点间的比较。比较欧洲共同货币（欧元）引人之前和之后的通货膨胀 
就是时期间的比较。其次.要区分跨部门单位是客观单位还是非客观单位。客 
观意味着时期是由数据本身决定的，比如议会、两次党派大会之间、人口普查等 
等。在有些情况下，数据本身并未提供客观标准，可以根据它们在每一时期内 
具有的同质属性或取值进行归类。当并非所有变量都可用同一时间单位来测 
量时，归类就会出现问题。 

时间增加了一个变异的维度。我们比较的是不同个案共享属性的取值。 
在趋势和纵贯数据中，每个个体或跨部门个案在不同时点或时期，每一个属性 
或变量都有不同的取值。时点或时期在个体和跨部门单位中用同样方法处理 
( Bartolini , 1993:146)。在发展的或序列的一般化理论中，“增长”就是指从一个 
时期到另一个时期时，变量的取值增加了。 

由此，研究设计不仅可被分为大规模一小规模比较研究，还可被分为同时 
性和历时性(纵贯的）比较研究。同时性研究指对跨部门、功能的或个体的个案 
只在一个时点或时期的取值进行测量。历时性研究指对跨部门、功能的或个体 
的个案在不同时点或不同时期的取值均进行测量。 

如上所述，一项研究设计可以是深人的（个案少而变量多）或者是宽泛的 
(个案多而变量少）。而这两者均可是同时性或历时性的。 

时间作为变异的一个维度，常被当做增加个案数目的方法来解决“小样本问 
题”。人们经常这么做，以期能用统计技术进行分析。纵贯分析的优势在于，它可 
以在相同的情境下，控制许多属性之后再比较不同个案 ( Lijphart , 1971、1975)。 

此类“个案延展”或“相乘样本扩充法” （ Lijphart ， 1975； Sigelman , 1977) 是 
有问题的，因为这些多时点观察值不被认为是单独的个案，它们并非彼此独立。 

时间 ：变量 、历史多重共线性与扩散 

进行历时性比较研究时，需注意以下3 点： 

首先，时间个案(观察单位)不应该与时间变量（变异单位)混淆。在历史比 
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较研究中，这点尤为重要。举个例子，一项研究设计的因变量是民主化的时机。 
按照通常对时机的操作化方式，我们区分“早”(例如，英国）和“晚”(例如，俄国）。 
因变量是时间性的，“早”和“晚”是其两个定序的取值。时间变量也可以是自变 
量。例如，有人会用工业化的先后顺序作为解释变量来解释民主化的时机（如 
果工业化先于民族国家出现，那么民主化就不易较早发生）。 

时间变量的例子 如下： 


变量 

取值 

时机 

早/晚 

序列 

前/后 

速度 

快/慢 


其次，使用纵贯数据会导致历史多重共线性，因为分析单位是时点或时期 
(时间序列），这导致变量之间强烈相关 ( Bartolini , 1993： 157—160; Thrupp , 
1970) 。但这一变量间的关系是虚假的，因为实际上，这是由时间变化导致的。 
当处理那些倾向于与时间平行变化的社会经济和政治变量时，这种风险尤其 
高。比如，工业革命以来，所有社会经济指标都随时间而增长。正如巴尔托利 
尼指 出的： 

如果 （ 自变量或因变量）随时间而变的趋势都与一个更一般过程的变 
化相联系，存在一个平行的现象束，且这些现象之间有内在关联，因此高度 
相关，那么大部分因素都与更一般过程的变动联系在一起……在这种情况 
下，它也与因变量联系在一起。 ( Bartolini , 1993:158)。 

因此，分析时间个案时，必须关注不同跨部门个案与这一趋势的背离。分 
析趋势时，应当分析其相对趋势，就是说，相比其他个案，它发生得早或晚、快或 
慢。这就可把时间性和跨部门的变异结合起来。研究者可以诉诸“随时间而滑 
动的同时性比较” ( Bartolini , 1993: 159) ,我们必须把跨部门单位的变异加人跨 
时间的变异中去。“更早有……则有更快的……”这种概括暗示了除单一跨部 
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门单位之外，还有更多的考虑(时间）。 

最后，在时间发展上,无论是组织还是地域单位（例如，政治系统），社会经 
济和政治现象都“有时间”从一个个案扩散到另一个。这导致(不同个案间）变 
量的取值随时间流逝而趋同。因此，跨部门个案也不是完全相互独立的。 

选择性偏差 

选择性偏差来源于从大样本中抽取部分样本进行分析。存在两种偏差 
( Geddes , 1990) : 

首先，有偏推论。这种偏差来自“不根据随机原则，而往往根据结果选取用 
于形成推论的样本，这便不具统计学意义上的总体代表性” （ Collier ， 1995： 
462)。我们不能把根据一个子样本得到的结论推广到总体中。这是一般化问题 
(外部有效性）。 

其次，有偏因果关系。这种偏差起源于使用不同的样本会导致不同的因果 
关系的 结论: 个案不同，结论就不同。个案在因变量分布的一端被过度代表，而 
在另一端则被“删截”。“据因变量而选择”指在因变量上取值的分布有偏，导致 
样本的因变量分布不对称(例如，只选取那些政治稳定性分数较高的国家）。这 
是设定问题(内部有效性）。 

在比较分析中，选择性偏差有5种潜在 原因： 

第一，研究设计。涉及样本的个案选择。如果研究者研究所有个案，那就 
不存在选择性偏差。严格而言，研究者不只是在“选择”，有些分类，如“第三世 
界”或“工业化国家”，从来就不是完全客观的，而是包含理论建构的。 

就跨部门个案而言，最常见的选择性偏差是选择那些成功的个案，即排除 
了“反例”(参见下面第四点）。例如，在一个关于选举改革的研究中，研究者只考 
虑那些选举制度发生了变化的国家，如从比例代表制转到多数制或者相反。这 
种偏差的最极端形式是，因变量只有一个取值 ( King , Keohane Verba , 1994： 
130)。选择性偏差也可影响时间单位，如我们可能从很长的时间序列中武断地 
选取特定时点。分析者常会选择那些变量取值达到高点或低点的时点。在这 
种情况下，变异范围被删截了。最常见的偏差是只关注时间序列的终点，如选 
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取较近时期将高估最近变化的影响 (Collier Mahoney , 1996； Geddes , 1990： 

146—147)。 

比较法有时利用密尔求同法来建立因果关系，此时，这种选择性偏差就会很 
关键。在求同法中，个案在大量的属性方面有差异，有时甚至是反事实的 ( Collier , 
1995； Fearon , 1991； Peters , 1998:72) ，而研究者会根据结果是否正面来选择 
个案(例如，事件发生）。这正是“根据因变量进行选择”(大部分个案都在因变量 
上取值相同）。如格迪斯所强调的，如果不把因变量取值不同的反例纳入分析， 
“我们根本不能判断我们发现的那些重要因素是否真的是重要前提” ( Geddes ， 
1990： 132) 。正如下面讨论的，在此情况下，只能建立必要条件，而不能建立充分 
条件。 

第二，历史偶然性。历史偶然性问题关注普遍性。总体本身在因变量上会 
进行“自我选择”。即使我们纳人所有现存个案，如国家,它也不能回避选择性 
偏差问题。真实世界中所有个案都有偏，它们都是“自然的”或“历史偶然的”结 
果，这意味着，可选择个案由于社会过程的作用而产生偏差。 

历史偶然性导致了“自我选择”的个案。选择一个国际组织的成员国（经济 
合作与发展组织或欧洲联盟）隐含了这些组织中的个案都是“自我选择”的，因 
为它们都加人了这个组织 （ Ebbinghaus ， 2005)。更激进的看法是，在分析民族 
国家时，一开始就有偏差。我们只把那些在自然和历史选择过程中“存活”的政 
治单位作为分析单位 ( Tilly ，1975 a : 15)。如果因变量是国家形成，那么只有成 
功个案而无失败个案(例如，那些“消失”了的国家)。 

拉津把历史偶然性带来的问题称为“有限差异或多样性” （ Ragm ， 1987： 
25—27、104—113)，即个案的取值不能涵盖全部可能的理论取值范围，历史不 
能提供所有可能的组合。例如，在发达工业化经济体中，所有的新教国家都较 
早实现了民主化。由此，历史偶然性对根据样本推论总体的行为有重要影响。 
作为一项基本原则，选取样本的标准必须与因变量无关。然而，如果在某特定 
时点上，总体只包括了那些经过“历史”或“自然”选择的个案，那么随机样本也 
是“据因变量而选择”的。如格迪斯所言，不能通过考察那些在18世纪存活的民 
族国家来评估军事创新对国家形成的影响，因为所有存活的国家都有那些创新 
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( Geddes , 1990:135)。 

第三，“高尔顿问题”。首先介绍一下这一问题。它源于19世纪时，博学的 
人类学家弗朗西斯 • 高尔顿 （Francis Galton ) 批评爱德华 • 泰勒 （Edward 
Tylor ) 的一篇比较研究的文章，这篇文章讲的是跨部门个案的两个二分变量之 
间的相关性。高尔顿批评说，这结果不过是个案间扩散的结果，而非变量间因 
果关系的产物。这是扩散的产物，而非功能的联系。 

从操作角度讲，扩散确实是相关变量间关联的一个影响因素 （ Smelser ， 
1976:212)。扩散过程作用的存在，使得功能联系成为虚假相关 （ Lijphan ， 
1975:171)。从统计上讲，个案间的扩散或传播过程违反了分析单位相互独立的 
假设。分析单位，无论是组织还是地域单位，都并非孤立的。时间性发展则是 
现象从一个个案传到另一个。这或许就解释了变量取值随时间变化的趋同 
现象。 [ 1G ] 

大部分单位都是受制于外部影响的开放系统：（1)模仿、借用，并从他人的 
实践中得到经验 （Ross &. Homer , 1976 );( 2 ) 当它们属于某个外部整合性组 
织时，它们会进行交换或协调 ；（ 3) 有时会受到征服、殖民、经济依赖等因素的 
限制 （ Moul , 1974); (4)“社会裂变”，即从共同的原初系统中迁移或者分裂出 
来 (Strauss &• () rans ， 1975)。这里存在的风险是最终样本数为1。普沃斯基 
和特恩 （Przeworski & Teune , 1970) 问道： “我们观察到了多少个独立事件？如 
果一个系统中的相似性只是扩散的结果，那么只有一个独立观察值。” ( Przewor - 
ski Teune , 1970:52) 而自由度则为0。因此，“如果研究单位不是独立的…… 
那么，研究它两遍并不会带来新信息……而把它计算两次也不能带来额外的确 
证” （ Zelditch ， 1971:282—283)。 

这一问题随着跨国化进程、交通的改善、信息的传播、交换的加速而变得更 
为严重。“在一个相互依赖的世界里，比较社会科学家开始意识到，社会现象不 
是孤立与自足的.而会受到其他国家发生的国内事件的影响。” （ Klingman . 
1980: 123) 世界在变小.因此这个问题比过去更严重了。比如，我们可以合理地 
假设，不同国家的福利闰家制度的发展受到了扩散过程的影响 (Collier Mes - 
sick , 1975)。梯利 ( Tilly , 1984) 就批评罗坎 ( Rokkan ) 模型，指出他未能真正分 
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析国家之间的互动。 

然后，谈一下解决方案。这里有两个极端。一个极端是“有条件地投降” 
( Sztompka , 1988)。整个世界都是一个个案，研究应当局限于关注抵抗全球化 
的那些“独特性”。另一个极端拒绝夸大这个问题 （ Blaut ， 1977)。“半扩散”这 
一术语(对应超扩散)表明：（1)某些社会对外部影响的抵抗力更强（因为选择性 
接纳、文化抵制、不习惯创 新）； （2) 扩散只存在于某些领域(例如，货币政策)而不 
存在于另一些领域(一个国家的民族构成）。 

在这两个极端之间，有以下解决 方案： 

第一，跨部门抽样。大部分解决方案试图“控制”选择个案过程中变量的 
“扩散” （ Naroll ， 1961、1964、1965、 1968 ；Naroll &- D ’ Andrade , 1963； Well - 
hofer , 1989)。 在最先遇到高尔顿问题的人类学中，解决方案是选择那些并无联 
系的国家，那么扩散就不太可能发生。这实际上等同于“差异最大设计” 
( MDSD )。 尽量在不同的情境下选择个案，个案的选择仍保证了它们的相互独 
立性。但这在当代工业化社会中依然是有问题的 （ Mod , 1974； Peters , 1998： 
41—43)。 

第二，评估扩散可能性。这一方案建议通过“扩散可能性矩阵”来检测相互 
依赖 ( Pryor ，1976) ，包括社会之间潜在扩散的度量。这些度量基于语言相似性 
和地理接近性等因素 (Ross & Homer , 1976), 扩散可能性矩阵提供了作为控 
制因素的情境变量。同样，还有人使用国际依赖度指标(例如，贸易构成指标）。 

第三，时间序列分析。对有些人来说，高尔顿问题是个案间的统计相依性。 
要解决这个问题，只需把扩散过程也纳人分析，即在回归分析中对相互依赖建 
立模型 ( Golckhorpe ， 2000：56； Klingman , 1980)。时间序列分析可整合跨系统 
的扩散效应，即因变量在不同系统间的空间扩散性。当然，这并不适用于小样 
本设计。 

第四，选择反例。有偏结果也可能发生在选择反例的过程中。直到最近， 
这一问题才得到应有的重视。研究者该如何决定一个反例，目卩“未发生事件”？ 
“何时何地会有‘非社会革命’发生 ？” (Mahoney Goertz , 2004: 653) 反例之所 
以重要，有两个原因 :第一 ，它们影响了正面案例和反面案例的频数分布，这使 
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得要么正面的，要么反面的个案更加“少 见”; 第二，选取不同的个案，会导致对 
原因的分析不同。纳人或者排斥某些个案会影响结果，因为个案往往具有不同 
的取值（内部有效性）。 

我们要么把这个案当做反例（未发生革命，没有战争），要么把它当做无关 
的。反例是分析样本的一部分。而无关个案则并非研究事例。如果要考察第 
二次世界大战期间，各国加人同盟国的影响因素，那么应该将瑞士作为未加人 
的个案(反例），而把玻利维亚当做无关个案。把无关个案纳人分析会额外增加 
总体的反例数量，从而导致反例被过度代表。相反，如果太多的反例被排除在 
分析之外，那会导致正面案例过度代表问题，这同样是偏差来源之一。 

如何确定个案是反面案例还是无关案例？ “可能性原则”提供了一个参考。 
根据这一原则，“只有那些结果是可能发生的个案，才被归人反例。那些根本不 
可能发生的个案应当被归为无效信息，被列为无关个案” (Mahoney Goertz , 
2004:653)。 

斯考切波同样建议，除了在因变量上有差异，反例应当与正例在各方面尽 
可能相似 ( Skocpol ，1984 a )。 同样，拉津认为，“反例应当在尽量多的方面与正 
例相似，尤其是在与正例展现出来的共同点上” （ Ragin , 2000:60)。而“可能性 
原则”把以上观点正式化了 （Mahoney & Goem ， 2004:657—658)。可能性原则 
指，选择那些有可能发生的 反例。 纳人原则指，如果个案取值在至少一个自变 
量上与关键结果正相关，那么，它就是相关变量。排除原则指，如果个案任何自 
变量的取值都预测关键结果不发生，那么，这些个案就是无关个案。这一原则 
应该在纳人原则之前执行。 

第五，对历史来源的“有偏”选择。最后，不准确地使用“作为数据库的历史” 
来检验假设，同样会导致选择性偏差。问题在于二手历史数据的选择。比较政 
治社会学依赖历史学家的数据工作，因为他们使得“过去事件已可直接编码” 
( Lustick , 1996:605)。然而，在比较历史社会学家那里，对于如何使用二手经验 
证据并无共识 ( Skocpol ，1984 a :382)。 

历史数据在过去的事件上隐含内在的理论。研究者面对这种风险会倾向 
于选择这样的数据 来源: 在其中总能发现那些与其理论或分类“合拍”从而对他 
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们最有用的事件。这种风险的实质是把研究者的“理解”当做“事实”来解释历 
史事件与过程。在许多情况下，社会学家“享受那种在历史的糖果店里‘精挑细 
选，的愉悦与自由” ( Goldthorpe , 1991：225； Goldthorpe , 1994)。 

关于“什么是历史事实”的争吵是个老问题了 （Carl Becker , 1926)，主要争 
论它们是被发现的还是被建构的，是客观的还是主观的。马克斯 • 韦伯和利奥 
波德•冯 • 兰克 (Leopold von Ranke ) 提出一个“科学”分析历史文献和档案的 
方法。这在第二次世界大战后的法国社会史学的年鉴学派那里得到了继承。 

解决历史数据有偏性的方法只有依靠自觉和严谨的态度，把选择特定类型 
数据的理论选择明确提出来，且尽可能放宽理论选择的范围，以避免任何偏差， 
尤其是要对不同数据来源之间的重合地带进行识别 ( Lustick ， 1996:613—616)。 


变量与属性空间 


测度的层级 

测度层级在社会科学中主要被分为：（1)名义的、二分的或者定类的变量 
(例如，不同类型的家庭结 构:核 心家庭、无子女家庭、单亲家庭、扩大家庭等 等）； 
(2) 定序变量(例如，国家的国际角色 :强、 有影响、弱、不显 著）； （3) 间距或比例变 
量(例如，国民生产总值及人均国民生产总值、年龄、工资、党员身份等等）。前两 
个层级的测度常被称为“定性的”，而第三个测度则被认为是“定量的”。第三个 
层级测度不仅允许我们建立个案间的“多或少”，还允许比较它们的“多多少”。 

大规模研究设计涉及大量个案，且定量的变量最适于使用统计方法来处 
理。当然，统计方法也可以处理名义的、二分的、定类的变量，只要个案数目够 
大。然而，如果定量变量的个案数目有限，那么定量变量之间的关系也是有问 
题的。正因如此，有时，定量变量被降格为多分类变量（两类就是二分变量或更 
多类別），从而可以应用密尔法和布尔代数。这同样适用于名义或定类变量。 
同时，在有些情况下，我们对某一因素是不是另一现象发生的充分或必要条件 
更感兴趣。在此情况下，密尔法和布尔代数都更有用。这要求测度的层级被改 
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小样本设计使用这种形式的数据，并用密尔法和布尔代数来检验诸如“强 
国际角色”存在与否或处于国民生产总值4个类别中的哪一类，是否代表了某个 
现象发生与否的必要或充分条件。 

过度决定与“自由度” 

如上所述，许多“比较的”分析面临的问题是样本数量少，同时变量数目太 


变，即降格为二分变量，亦即二元的(取值为0或1)，1表示某给定属性成立，而 
0表示不成立。属性的成立与不成立遵循定性和离散的逻辑.而非根据程度和 
大小的定量/连续的逻辑。 

把定量或定序变量降格成定类层次有两个主要问题。首先，在把间距或比 
例变量（比如，人均国民生产总值)转化成多分类变量时，存在信息丢失。从下 
表中，我们看不出西班牙、意大利和希腊的具体差别是多少(事实上，分别接近 
15000美元、18000美元和12000美元)。其次，为建立分类，研究者需选择临界点， 
而这一选择对要检验的关系有重大影响(参见上文对偏差的讨论，并参见第7章 
对临界点的讨论)。 

人均国民生产总值水平 （$) 

国家 - 

0—10000 10000 - 20000 20000 — 30000 30000—45000 

西班牙 0100 

意大利 0100 

希腊 Q 1 0 0 

相反，对定序变量而言，并没有信息丢失。对每一个类别（比如，国家影响 
力水平)而言，在每一个国际影响力的水平上，每一个案都被赋值为0或1。 

国际角色 

国家(个案）- 

强 有影响 弱 不显著 


岛国国 

冰美俄 
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多。这一“变量太多，样本太小”问题 ( Barton , 1955, Lijphart , 1971)，意味着可 
用于检验潜在相关变量的个案过少，也就是存在过度决定或缺乏“自由度”问题 

( Campbell , 1975) „ ^11] 

有两个主要方法可解决“变量太多，样本太小”的问题。 

方法之一是增加样本的数量。利普哈特提出了这一点，同时他又注意到个 
案越多，属性空间就越大(变量数量越多 ）（ Lijphart ， 1971)。这就是比较研究中 
的著名 悖论: 增加个案数量的同时，带来了更大的属性空间.从而导致需要再纳 
人更多个案来弥补属性空间的增大所带来的麻烦。 

方法之二是降低变量数量。这一研究设计在降低理论上相关的变量数量 
方面起了重要作用 ( King，Keohane Verba , 1994、 1995:119. —120)。[ 12 ]另夕卜 
3种方法是：（1)关注相似个案。选择那些在尽可能多的重要属性上取值相似的 
个案，这样就可以控制大量的变量(这些变量都被排除出分析)®。降低变异的 
范围意味着控制，进而排除变量。而增加总的控制变量数量，就降低了出现在 
解释模型中操作变量的数量(因变量和自变量）。然而，选择相似个案的副作用 
是降低个案数 M 。 这是悖论的另一个方面 :相似 的个案总是少于相异的个案 
( Lijphart , 1971:687)。 （2) 关注“关键”变量。这一解决方法采用简洁的解释模 
型，利用尽可能少的自变量。而哪些“关键”变量必须被纳人模型，又是研究者 
主观决定的。比较法与其他方法一样，只有当个案数量允许时，才能承受引人 
大量变量。 （3) 合并变量。在“因子分析”视角下，可根据其内在属性，把两个及 
两个以上的变量合并成一个变量，从而减少变量的数量。 


①如果相似个案在很多自变 tt 上取值相问，即不起作用.那就自然被排除。译者注 



第 5 章 I 控制 


这一章主要处理两个相关议题。首先讨论个案的可比性。其次讨论如何 
降低和消除“第三”变量对自变量和因变量关系的可能影响，即研究者希望控制 
的那些变量的影响。分类与分组处理同时涉及这两个事项，因此，我把它们放 
在一起，单独作为一章处理。 


可 比性： 比较的界限 


比较研究者经常遇到的问题是，什么是以及什么不是比较。与此相关的是 
比较的界限以及使个案可比的策略。 

比较有无逻辑界限？是否有些事物“过于不同”以致不可比，从而不能被纳 
人同一研究设计中？或者正相反，“所有事物都是可比的”？是否可以比较美国 
的总统选举和亚马逊丛林中部落首领的选举？可比性这一问题具有重要意义。 
有一派历史学方法试图把所有现象当做独特的。这假定的“独特性”使得事件 
不可比。由此演化出来的比较方法有时采取“种族中心主义”的立场，即认为在 
既定社会/时点框架下发展岀来的概念并不适用于其他个案，关于特定社会的 
知识并不能应用于其他社会。 

正如第1章的定义，使用比较法时，我们并不直接比较两个及两个以上的个 
案。我们比较的是从每个个案中抽取的共同属性的取值。让我们举一些社会 
科学不同分支领域的陈述为例:城郊的犯罪率比市中 心高; 新政府的福利政策 
比上届政府的更受 限制； 巴西的选举系统比阿根廷的更偏向比例制。 

首先，每条陈述都有两个对象(个案） :城 市地区(城郊与市中心）、政府(新政 
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府与上届政府）、选举系统（巴西的与阿根廷的）。其次，每条陈述都有各对象共 
享的一条 属性: 犯罪率、福利政策、选举系统比例制水平。 

在第一个例子中，我们比较的是城郊和市中心的犯罪率(被操作化为报警 
的犯罪案件数量）。在第二个例子中，福利政策的“慷慨性”可以通过保健福利 
金、养老金、失业救济等来测量。在第三个例子中，我们没有直接比较选举系 
统，而是比较它们的代表比例。巴西的加拉赫最小二乘非比例指标是 3. 70,而 
阿根廷则是 13. 5。因此，巴西的选举系统确实比阿根廷的更偏向比例制。 

因此，可比性问题是一个共享属性的问题。我们比较的其实是个案在一些 
共享属性上的取值。从方法论角度讲，比较并无界限，确实是可以比较美国总 
统和部落酋长的任期长短。前者是4年(可连任一次），后者是终身制。还可以 
比较它们的 选拔: 是通过选举还是根据出身。当比较共同属性取值时(任期、选 
举方法），测度层级可以是名义的、定序的，或定量的。在比较福利慷慨性时，取 
值就是定 量的; 在比较国家首脑的选拔时，取值就是名义变量。 

分类处理 

由此，个案间的可比性通过共享一些属性或性质而实现。如果个案 A ， 
B , N 均有属性 X ，则其取值(0、1、2等等)就是可比的。可比性可通过找到 
个案之间的“公分母”而实现。正如萨托利指出的，“比较就是‘同化’，即在表面 
差异之外发现更深或更根本的共同点” ( Sanori ， 1970:1035)。 

逻辑控制过程的第一步是概念化，即通过定义经验普遍性使个案可比 ( Sar - 
tori , 1970、 1984 a 、 1991)。经验普遍性是定义那些被比较个案共有属性的概念 
或者分类。通过“用变量替代个案名字”，就可以把单个的历史观测值变成可比 
的个案 （Przeworski Teune , 1970:25; Collier , 1991 a 、1991 b )。 

这说明，为何纯粹的“个案取向”方法不可持续。比较隐含了用变量思考、 
属性和性质。如果这一步缺失了，那么比较就不可能 :“整 体论导致了一个清晰 
且直接的矛 盾：只 有不可比的是可比的。” (Zeldtich ， 1971: 276) 如 巴尔托利尼提 
出的那样，“个案不能作为‘整体’进行比较，只有识别共同属性，比较才有可能” 



I 社会科学中的数理基碯及应用 


( Bartolini , 1993:137; Goldthorpe , 1997 a :2— 4)。 

所谓的“变量取向”和“个案取向”方法，前者主要依赖统计学和大样本设 
计，而后者依赖密尔法、布尔代数和小样本设计。但事实上，它们都植根于变 
量，并对变量分析感兴趣。这也再次强调了两个比较传统的相似性。 

分类与类型化 

分类允许我们确定哪些个案是可比的（可比意味着享有共同属性 ）（ Kalle - 
berg , 1966)。通过确定哪些是相似的，哪些属于同一群体或阶级，我们可确定 
个案是否共享一种属性，从而确定它们是否可比。 

第一,等价。可比意味着事物共享某些性质(选举结果、有灵论者的仪式）， 
即属于同一个类别的个案。如果研究议会的选举结果，我们必须首先确定哪些 
国家该被纳人而哪些不应该。如果研究有灵论仪式，我们必须确定哪些国家有 
有灵论仪式，而哪些国家没有。可比就是某些事物有一定程度的相似性，它们 
就都属于由某共享属性所界定的群体。为作出明确区分，我们必须清楚地定义 
“选举结果”和“有灵论仪式”。概念或类别必须对所有纳人比较的个案具有相 
同含义。[ 13 ]类别必须是等价的 (van Deth ， 1998)。比如，“选举结果”指的是自 
由的、周期性的、正确的、通过全民投票选举议会的选举，且这种议会由一个以 
上党派参加并提名候选人，且有多种的信息来源。[ 14 ] 

在考察属性成立与否之前，或在按某些变量对个案排序及对其进行测量之 
前，我们“必须形成那个变量的概念 ” （Lazarsfeld & Barton , 1951:155)。概念 
或类别绝不能是模糊的，即它们必须总能指明它们指向的是哪些经验事实。我 
们总是应该明确地陈述概念的经验指 示物: “选举结果，我们指的是一系列的经 
验指示物。”只有这样，才能说某个个案是否真的是选举个案。换句话说，只有 
通过明确的概念，我们才能确定这些个案是否共享同样的属性，进而最终建立 
它们的可比性。如果这一概念或类别的含义是精确的，则其识别能力就得到了 
加强，即它可依据精确的边界，把一系列的个案归人各个类别中去。这对数据 
收集有重大的影响。概念和类别是“数据容器”，为增加它们的辨别效力，其定 
义必须能明确指示哪些个案可归人某类。只有当“政治暴力”这一概念在智利 
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和加拿大具有相同含义时，我们才能比较两国的政治暴力水平。如果在智利， 
政治暴力的经验指示物是杀人、绑架和街头暴力，而在加拿大则指的是静坐抗 
议、示威运动和对政治领袖的口头攻击，那么这两个个案是不能比较的。 

第二，分类逻辑。分类是概念形成过程中最重要的程序 :“它 是科学中概念 
形成最基本的方式。如果没有分类，那么，无论是比较，还是精确地测量，都不 
可能实现……只有作出分类后，才能进行比较。” （ Kalleberg ， 1966:73、 75)“ 简 
言之，被比较的两个对象必须属于同一个类别它们或具有或没有某种属 
性。当且仅当它们具有这种属性，它们才能被比较，我们才能判断它们之中哪 
个的属性多一点或少一点。” ( KaUeberg ，1996:76) 

依照贝利的定义，分类是一个一般性过程，也是结果，把个案按照相似性进 
行归类。在建立群或类时，我们希望最小化组内差异，同时最大化组间差异。 
相似性因素定义了哪些对象属于同一个类别（属），差异性因素则定义了如何区 
分这些类别(种、亚种)①。 

对概念的分类操作有3个基本原则：（1)分类维度。分类需根据外在标准来 
设置组别。各组别可按单一维度或属性(单维度），或根据多个维度（多维度)划 
分。“类型学”这一术语指的是多维度分类，其中，各个类别根据概念而非经验 
(分类学)进行区分。 （2) 互斥性。每个项目（个案）只能对应一个类别。不能有 
任何个案同时属于两个以上类别。如果分类由一组互斥类别组成，那就不至于 
重合。 （3) 穷尽性。每个个案都必须被归入某一类别，不能有任何个案无法归 
类。如果类别是穷尽性的，那么每个个案都会落在某个变量的一类中。问题 
是，如果每个个案都需要有一个类别，那么会有太多类别。为了避免这种情况， 
有时，我们会设置一个“无”或“其他”这样的类。[ 15 ] 

小样本比较研究的特性之一就是更广泛地使用分类法。它在比较法中的 
确非常关键。然而/分类法在其他方法中同样重要，尤其在基于定量变量和统 
计技术的大规模比较中。 

分类法先于统计学，而非外在于统计学。概念形成指向的差别更多是性质 


①属 ( genus ) 和种 ( species ) 是生物学分类法中的两个级别。-译者注 
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的，而非程度的 （ Sartori ， 1970:1036)。由一般到具体的分类学等级，直接触及 
了类别从属关系和分类原则。因此，定量逻辑的分类法是从顺序和性质那里发 
展而来的。等级逻辑属于分类学。在能够使用“多于 ”(>) 和“少于 ”(<) 等符号 
之前，我们必须建立“等于” ( = ) 和“不等于”(关 ） 。因此，可比性就是一个“什么” 
的问题，一个定性的问题，不能被“顺序”或“多少”取代。 

概括的层级 

首先，我们来谈论一下概念扭曲。如果概念可以“旅行”，那么，它们就可应 
用于大量可比较个案。然而，不是所有的概念和类别都适于旅行。有些在特定 
地域、文化和社会经济情境下发展起来的概念应用于“新”个案时，它们不一定 
有意义。在跨国研究中，这一问题尤为突岀。“西方的概念”在世界其他地区可 
能具有不同的含义。萨托利所说的“适用性问题” ( Sartori ， 1970: 1033) 与“政治 
的扩张”紧密联系，即自20世纪60年代以来，社会政治事件客观数量的增长和 
人们对政治事件主观兴趣的增长。 

当概念和类别被应用到那些不同于最初催生概念和类别的个案的新个案 
时，适用性问题就出现了。对此问题，一个常用却不完满的解决方案是“概念扭 
曲” （ Hempel ， 1952； Peters , 1998:86—93; Sartori , 1970)。 概念扭曲指的是通 
过扭曲概念来使它们适用于新个案。有时，为一组个案而发展出来的类别被扩 
展应用到额外的个案中，而这些新个案是如此不同，以致这一分类的最初形式 
已经不再合适了，此时，概念扭曲就发生了 (Collier Mahon , 1993)。 

然后，我们来看一下抽象性的阶梯。如何避免概念扭曲？首先，比较研究 
应依赖经验普遍性，或者说观察性概念，即从经验观察而非理论概念（比如，“系 
统”、“反馈”或“均衡”)中进行抽象性推论。这些概念没有经验指示物，它们不可 
能被操作化，即不可被测量。其次，如果想增加个案的数量，又要避免概念扭 
曲，我们就必须减少经验概念的特征和属性。这可以通过攀爬所谓的“抽象性 
的阶梯” ( Sartori , 1970： 1041； 1984 a :24) 或“普遍性的阶梯”来完成 （Collier &- 
Mahon , 1993)。在一个想象的尺度上，经验概念可被放置在不同层级。它们在 
阶梯上的垂直位置取决于概念深度与广度之间的关系。 
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低 内涵（属性范围） 高 

既然“选拔”这一属性同时适用于德国和美国，那么，比较两国行政长官的 
选拔就是可能的。这两个个案共享了一种属性，因此是可比的。然而，由于德 
国行政长官是由议会提名，而非选举产生的，就不能比较这两国行政长官的 
“选举”。 

“行政长官选拔”这一有限内涵的概念并未指定属性，因而适用于很多个 
案。相反，一个更深的内涵，即限定更多属性——比如，“选民直选”——就排除 
了大量的个案，因为在这些个案中，行政长官或由议会提名（如大部分欧洲民主 
国家），或由选举团间接选举出来(如美国）。 

有两种方法可在抽象阶梯上往上爬。一种是扩大概念的外延（减少属性或 


“外延”这类术语指代概念或分类指涉的那组对象、现象、事件或实在 。一 
个概念的外延指的是它所适用的那类“事物”。“内涵”这一术语指代一个概念 
或分类的属性、性质或特征。它们定义了类别，因此决定了个案的归属。一个 
概念的内涵是决定其适用于哪些“事物”的一组属性。 

外延和内涵的关系遵从“反向变动”法则，即概念的内涵越深，根据这一概 
念属性定义为属于这一类别的“事物”就越受限制 （Collier Mahon , 1993)。 
换句话说，一个概念的特征名单越长且越丰富，这一概念适用的对象就越受限 
制。相反，一个概念的属性和性质的特殊性越小，那么，这一概念就可指涉更多 
的“事物”(存在、对象、事件)。 

ftt —般性 
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性质），这么做会带来更大的类别，使分化更少，但有清晰界限和区分能力。这 
是正确的方法。另外一种是“概念扭曲”，扩大外延但不减少内涵。外延通过模 
糊概念之间界限的方式获得了扩大 ( Sartori ， 1970:1041)。 

家族相似性与向心分类 

在离散分类法中，个案属于或不属于一个类别 ：它们 或具有或不具有一种 
属性 ( Kalleberg ， 1966:76)。正如萨托利指出的，属性的正面別在实践中会过 
于严苛。他对此问题的答案是，当一个概念的精确属性无法确定时，就必须清 
楚申明这一概念不是什么，即属性的反面识别 （ Sartori ， 1970)。有人提出了解 
决离散边界问题的另外两种解决方 案：家 族相似性和向心分类 （Collier & 
Mahon , 1993) 。[ 16 ] 

家族相似性(首先由语言哲学家维特根斯坦提出）基于这样的 原则： 如果不 
存在某类个案共享的单一属性，那么，研究者应当纳人那些在某种程度上享有 
这种属性的个案。举个例子，可这样定义“民主”:（1)普选权(政治权 力）； （2) 新 
闻自由、结社自由、信仰自由、个人保护（民事权 力）； （3) 自由的、周期性的、正确 
的 选举; （4) 行政长官对议会 负责； （5) 独立司法。 

如果比较19世纪晚期的英国、法国、德国和比利时，我们会发现,并非所有 
个案都共享“民主”这一属性。英国没有普选权，法国司法不独立，德国政府不 
能被议会罢免。根据经典的分类，只有比利时能被归人“民主”这类。 

家族相似性这一想法考虑到属性在一定程度上由所有个案共享。原型类 
别（民主)是一个分析性的建构，并具有启发式的有效性。马克斯 • 韦伯的理想 
类型法通过分析来定义，而非由观察到的经验个案的共享属性来定义 （ Burger , 
1976)。真实的个案与理想类型在一定程度上共享其属性，这意味着属性设定了 
个案之间的“变动范围”。这一方法的优势在于，研究者不会因为界限的严格而 
舍弃一些个案。 

向心分类(最初由认知科学家勒考夫提出）同样依赖属性在个案之间的变 
动范围。 

首先有一个原型或理想类型，代表了完美的、完整的个案，这是“主要亚 
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类”。而“次要亚类”则是其变异。次要亚类不包括主要亚类的所有属性。当主 
要亚类的组成因素被一个接一个拿走或者换成不同组合(但不完整）时，非中心 
亚类就产生了。它不同于经典分类法，因为经典分类法有一个累进式区分， 
“属”比“种”高一级，高级类和低级类的各个类别通过引人更多不同属性(种差）， 
使各自得以区分①。而在向心分类法中，“主要亚类”比“次要亚类”具有更少的 
属性。 

这些分类策略为我们建构类别提供了不同的解决方案。这对可比性是有 
影响的，即影响我们把哪些个案纳人分析。 

控制与研究设计 

前面讨论了分类法和分类学操作对可比性的重要意义，其实分类法还有第 
二个重要角色。分类法帮助控制变量 （ Smelser ， 1976:167—174)。这两个角色 
不应被混淆。可比性关注个案，而控制关注变量。一旦确认可比性，分类法就 
被用于排除那些干扰研究者想得到的变量关系的变量——这是降低不必要变 
异的过程。 


匹配与随机化 

经验研究基于现象（或它们被操作化之后的变量）之间的因果关系假设。 
通过检验经验证据，假设或被确证或被拒绝。假设的经验验证隐含两个不同但 
相关的 方面: 决定现象之间的关联，即原因和结果的关系（用操作化术语来说， 
即自变量和因变量之间的关 系）; 从其他变量中，分离出每一个操作变量独立的 
因果作用。 

在不同的检验阶段.同一变量可作为实验变量，也可作为控制变量，这取决 
于它是否被“允许”变动。 


①经典分类法根据“属加种差”下定义。种差本身也是属性，用种差去限制属的概念就构成了 
定义项。比如，“货币就是固定地充当一般等价物的商品” • 商品就是属，而货币是种.“固定充当一般 
等价物”就是种差。种差不同，就可以定义不同的亚种。——译者注 
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通过把自变量转化为控制变量，或者反过来（当然这些变量都必须被认为 
是相关的），调查者能够从中获得信心、给出解释、完善理论观点、增强解释力。 
对所有类型的研究而言，哪些变量应当被控制，完全是研究者基于过往知识或 
新见解所作出的决定。 

变量的控制可以通过以下方式 进行： 

第一,随机化(通过差异最大设计进行控制）。通过随机化，差异被排 除了： 
如果同一现象可以在不同情境下（不同的变量及组合）发生，那么，这些情境的 
差异就对其现象发生没有影响，因此是无关的。这与差异最大设计很相似，与 
求同法也很相似。差异最大设计法消除了那些取值随个案而变的“第三变量”。 

第二，匹配(通过差异最小设计进行控制）。匹配把相似性排 除了： 因变量 
的某种变化不可能由在所有个案中都保持不变的因素引起。通过匹配，第三变 
量的影响被排除了，它们被转化成常数项，因此不代表差异来源。这相当于差 
异最小设计法和求异法。差异最小设计法消除了那些在个案之间保持不变的 
“第三变量”的影响。 

进行随机化意味着选择那些覆盖了某一属性整个取值范围的个案。随机 
样本保证了总体中每个个案都有平等的抽中机会，这增强了我们进行推论的信 
心。随机过程在依赖大量个案的统计方法中很典型。进行匹配(有时被称为样 
本抽样的“参数化”、“标准化”或“分层化”)意味着把变量转化成常数，使其不再 
变动，从而令它们的影响被排除，自变量和因变量之间的关系也得以分离。 

需要指出的是，无论是随机化还是匹配，控制不必要变异来源（“第三变 
量”)的技术都依赖个案选择程序,即最终依赖于研究设计。 

在社会科学中，研究设计特别重要，因为研究者从既有数据中抽取个案。 
在实验中，调查者对数据的产生有直接的影响 (Cook Campbell ， 1979)。这是 
一种情境操控。在实验室条件下，可把变量转换成常数来排除不必要的变异来 
源，分离出操作变量的作用。而无论是统计法还是比较法，都不能对数据产生 
直接的影响。因此，控制就通过对概念的操控完成。调查者选择那些在某个属 
性上具有相似属性或那些在某个给定属性上有不同取值(随机化)的个案。 
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差异最小设计和可比个案控制策略 


在比较法中，同样作为控制方法的匹配比随机化扮演了更重要角色。在实 
验和统计方法中，随机化可通过操控和大样本轻易实现。当样本量很小时.随 
机化更加困难。这意味着，个案不足以涵盖某一给定属性或变量所有可能的取 
值范围。匹配作为比较法中最主要的控制技术，有两个重要 影响： 

第一，分类的角色。因为匹配在控制不必要变异来源时扮演重要的角色， 
因而在比较法的概念操作、分类和类型学中都变得很重要。匹配的过程主要是 
根据给定属性的相似取值把个案分组。要使一个变量保持不变，必须使所有个 
案都在那个变量上取值相同。因此，匹配控制是通过分类和再分类实现的 
( Smelser , 1976:168—169)。 

第二，差异最小设计。对一部分学者而言，比较研究设计主要包含那些以 
相似性为特征个案的设计。利普哈特提出，“把比较方法这一术语留给可比个 
案策略更为合适，可以把第一个解决方法（即随机化）归人到统计方法中” （ I 」- 
jphart , 1975:163)。个案通过这种选择方式来最小化控制变量的变异，最大化 
实验变量（自变量或因变量)的变异，并获得更大的“自由度”。 

匹配技术最早在人类学中发展起来，并作为控制比较、设定 （Holt Turn ¬ 
er , 1970:11)，或系统性比较例证 ( Smelser , 1973： 53； 1976: 157) 方法被引入社 
会学和政治学中 （ Eggan ， 1954； Hoenigswald , 1963)。 

如果研究者处理来自相似“地区”的个案，它们具有同质文化和相似社会经 
济条件，则相比从不同文化和社会经济情境中抽取的个案，就能控制更多因素。 
正因如此，这些作者偏好中层理论，即研究设计在一般性上有限度，但允许控制 
解释。 

通过普沃斯基和特恩的名作《比较社会研究的逻辑》 （77^ Logic of Com ¬ 
parative Social Inquiry ) {Vrzevforskx &• Teune , 1970； Meckstroth , 1975)，“ 控 
制比较法”被引人比较政治研究中。这种类型的研究设计有几个名称,最常用 
的两个是“差异最小设计 ” （Przeworski &• Teune , 1975) 和“比较个案策略” 
( George , 1979； Lijphart , 1975)。在差异最小设计中，研究者比较两个以上尽 
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可能相似的个案，从而能够关注那些构成关键自变量和因变量关系的变异。 [17] 
而这只是一种研究设计。它关注选择个案和变量。差异最小设计与控制比较 
法采取相似的步骤，它们都在同质情境下选取个案，从而允许最小化“实验变 
量”，而增加“控制变量”。所选个案共有的情境越多，能够识别到底哪个变量能 
够解释因变量变异的能力就越高。当然，这么做的风险是扩散效应会增加（参 
见上文的高尔顿问题）。 

分类的作用 

下面的表以选举/选拔一国元首为例，明确了分类法对可比性和控制有重 
要的双重角色。 

首先，对什么是可比的而言，分类法不可或缺。如果对国家元首的选举感 
兴趣，我们就必须排除那些无须选举国家元首的国家。在“选举国家元首”这一 
属性上，德国、意大利和瑞士 (取值为 0) 与法国、美国、奥地利等国（取值为 1) 不 
同。在德国、意大利和瑞士，国家元首是由议会提名的，而在法国、美国和奥地 
利等国，国家元首由人民选举产生。因此，德国、意大利和瑞士不能在这一特定 
属性上与法国、美国和奥地利进行比较。但如果概括层级提高.我们在一般性 
阶梯上使用更抽象的概念(选拔而非选举），那么这些个案又是可比的，所有这 
些个案都存在一个选拔国家元首的过程(取值为1)。 

不可比个案是那些国家元首无须选拔(取值为 0) 的国家，比如在君主立宪 
制国家中.国家元首是世袭的(英国、瑞士、西班牙和荷兰等）。 


分类的角色 

概括层级 

低层级 

高层级 

可比性 
(相同属性） 

选举 (1) 

无选举 (0) 

选拔 (1) 

无选拔 (0) 

匹配 

(相同取值） 

直 接的： 
奥地利、法国、 
葡萄牙、爱尔 
兰、芬兰 

间 接的： 

美国 

选 拔的： 
奥地利、法国、 
葡萄牙、爱尔 
兰、芬兰、美国 

任命的： 

德国、意大利、 
瑞士 
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其次，分类对匹配变量而言不可或缺。我们选择那些具有相同取值的个 
案，从而把变量变成常数。在国家元首选举的例子中，这一变量有两个取 值:直 
接选举和间接 选举。 在国家元首选拔的例子中，这一变量有两个 取值: 选举或 
任命。请注意，在低概括层次上的“选举”是更高一级概括层次上的名义变量 
“选拔”的一个属性。如果我们想考察政党分化程度对政府稳定性的影响，我们 
需要“控制”选拔的类型(选举或任命），因为直接选举国家元首带来的合法性或 
许可弥补政党分化的影响。分类可以产生同质的个案群体。 



第 6 章 I 因果关系 


原因与结果 

本章处理比较方法的解释目的以及如何接受或拒绝变量间因果关系假设， 
即如何检验它们的经验有效性。 


归纳推理方法 


因果关系是经验研究最关心的问题。事件不是随意发生的，而是在一定条 
件下发生。大部分研究处理的是事件的起因或事件的影响。政府不稳定的主 
要原因是什么？什么因素导致通货膨胀？社会保险是否降低工作效率？选举 
方式从比例代表制转向多数制有何影响？ 

尽管“原因”这一术语非常复杂且充满争议，但它总是涉及事件或现象之间 
的系统性关联。事件总是相互联系的。因果陈述隐含原因和结果之间规律一 
般的关系。因果关联的概括是一种假定，即不论何时何地，一个既定现象总是 
或通常有另一现象紧跟其后。 

因果关系条件陈述的逻辑形式为“如果(前件)……那么(后件)”。使用逻辑 
符号的话，前件常用/>，后件常用9来表 示:“ 如果/>……那么9。”如果假设为真， 
前件就蕴含了后件。这种蕴含用符号“3”或者“―”来表示，可以取代“如果…… 
那么……’’这种语言 形式: P ] q 或者 P — q 。 

一个条件陈述要么为真，要么为假，取决于和 g 在真实世界中存在与否。 
条件陈述为真取决于 P 和？ 出现 （1) 或缺失（0)。根据条件陈述中组成部分 
和9为真或为假，整个条件陈述也为真 (1) 或为假(0)。例如，我们发现多数制选 
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举系统(为真， 1) 和两党制（为真， 1) 之间存在固定关联，那么这一条件陈述就为 
真(1)。相反，如果我们发现多党制系统(不存在两党制，0)，那么这一条件陈述 
为假(0)。 

要确定因果关系条件陈述是否为真是一个经验研究问题。规律性陈述只能 
通过观察现实来判断其真伪。然而，经验观察总是被限制在有限数量的事件上，即 
限制于部分个案，而非所有个案。基于观察所得的、有因果关联的事实而作出的普 
遍性陈述就是归纳推理。那么，如何从观察到的事件中推论普遍因果关系呢？ 

最古老的归纳推理是列举法。有利于条件陈述的证据确认某一陈述。有 
两种类型的列 举法: 归纳概括和类推法。归纳概括列举那些可以帮助确证因果 
关联的事件。例如，通过列举那些低利率且物价上涨的国家，可推断“低利率导 
致通货膨 胀”; 通过列举那些比例代表制国家存在政党分化的情况，我们推断 
“比例代表制导致政党分化”。类推法推断的是下一个样本，而非一个普遍的规 
律。比如，我们期望下一个引人比例代表制的国家也会出现政党分化情况，或 
下一个降低利率的国家会有更高的物价水平。这两种列举法基于同一个逻辑， 
即印证这一关系的事例越多，因果关系成立的可能性就越大。 

然而，列举推论受一个根本问题的困扰，即只需一个反面事例，就可推翻整个规 
律。对列举推论及类推法作为归纳概括方法的批评，首先由弗朗西斯 • 培根在《新工 
具》 (7 如 NewOgunon ) —书中正式提出。在书中，他提出了其他几种归纳程序以取 
代列举法(基于亚里士多德逻辑)，后来，密尔把这些精细化，并重新表述。这些程序 
被称为“密尔归纳推理法”。如下文将要讨论的，今天大家使用的这些方法是由科恩 
和内格尔、冯 • 赖特、波普、亨普尔和奥本海姆在此基础上发展的，他们都强调其排除 
性本质，即条件陈述或假设只要未被拒绝或证伪，就可被认为是真的 ( CohenS - 
Nagel , 1934； von Wright , 1951； Popper , 1959； Henpel &- Oppenheim , 1948)。 

条件真值表 

基于事件的出现 (1) 或缺失 (0), 我们有可能建构一个条件陈述真值表,在此 
表中，所有可能组合 （ I 一 IV )决定了条件陈述的真假，便于我们决定是接受还 
是拒绝假设。蕴含(―)一栏的符号告诉我们这一条件陈述为真 (1) 或为假(0)。 
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P 

—— ► 


I 

1 

1 

1 

n 

1 

0 


D1 

0 

1 

1 

W 

0 

1 

0 


条件陈述的真假(―)是 P 和 g 真假的一个函数。 P 和 g 的4种可能组合是 
(1，1)，（1，0)，（0, 1) 和(0,0)。正如表中岀现的那样，除了组合 n ，这一条件 
总是为真。排除性过程正是基于组合 n ，因为它直接导致假设被拒绝。 

组合 I 意味着，如果 P 为真 a ) ，同时 g 也为真 （1) ，那么关系为真。组合 n 
表示，如果 P 为真(1)，但 g 为假(0)，那么关系不成立。组合 in 表示，即使户为 
假(0)，但 q 依然可为真 (1) ，因为它可由其他因素引起(“多重因果”原则）。组合 
IV 意味着，即便 P 为假而 g 也为假，但关系依然存在。 


充分与必要条件 


对布尔代数方法而言，一个重要特点是原因或事件发生的条件或是必要 
的，或是充分的 （ Mackie ， 1965； Mahoney , 2004)。 

充分条件是条件成立时， g 总成立。如果出现这类条件，那么， g 总会岀 
现。根据上面的真值表，此时 P = h g=l (组合 I ) ，且没有任何个案属于组合 
II ( 即 P = 1，9 = 0 )。当然， q 的发生也可能由其他原因造成(组合11[)，即 P = 
0， q = l Q 简言之，当 p 出现时，总是出现;只要 P 出现， g 就从不缺失。此时，/> 
就是9的充分条件。用贝叶斯概率符号来表示， 就是： 

P(p 10 = 1 ， P(p I 〜 g) = 0 ① 


①原文公式如此。作者习惯统一把原因 P 或 c 放在条件竖杠的左边，而把结果或者 E 放在 
条件竖杠的右边，通篇如此。充分条件时，尽管 P 在条件竖杠左边，但 P 代表条件，这与条件概率公式 
应当把条件放在竖杠右边的习惯不同。而在表述必要条件下 w 代表条件，此时与一般条件概率公式 
的写作方式相同。同样是公式 \ q ) = U 在充分条件时，应读成“/>成立时 w 成立的概率为1”;而 
在必要条件时，则 读成、 成立时，成立的概率为1”。 p(p | 〜0 = 0在充分条件时读成 “ P 成立时，非 
g 发生的概率为0”。 P (〜 Pk ) 在必要条件时表示、发生时，非/>成立的概率为0”。这在一定程度上 
会引起读者的困扰。但为保证行文的格式统一，在此保留了原文的公式写作方式。因此，请读者注 
意，在充分条件时，应当从左往右读公式，而在必要条件时，则从右往左读公式。这恰好与充分条件 
(户和必要条件 ( P —0 的箭头方向一致。——译者注 
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必要条件是当事件 P 不出现时，事件9不会发生。事件9当且仅当 P 出现 
时才发生，即当9= 1时，/>= 1 (组合 I )，同时不会有任何一个〜个案，即不 
会出现/> = 0, 1 (组合 III )的情况。简言之，当 <7发生时4总是出现，此时， 
户是的必要条件。用贝叶斯概率符号表示， 就是： 

P(p I q ) = 1 , P ( 〜 p \ q ) = 0 

条件陈述可以反转或转化。如果/>是9的充分条件，那么9就是 P 的必要 
条件。在条件陈述 p — q 中， P 是<?的充分条件，<?是的必要条件(如果 p 和 g 
同时发生）。只要出现，9就出现。这两种情况都导致尸(户1<?) = 1(组合1)。 
如布劳莫勒和戈茨指出的，“任何必要条件假设都可以转化成一个充分条件假 
设，反之亦成立 ” (Braumoeller Goertz , 2000:846)。如果不平等是政治不稳 
定的充分条件，那么，政治不稳定就是不平等的必要条件。然而，这会造成混 
淆，因为不稳定发生在不平等之后。 

首先，我们必须区分必要条件和必要原因。尽管所有结果都是其充分原因 
的必要条件，但它们未必总是必要原因。必要原因是必要条件的一个子集。原 
因总是发生在结果之前。因此，我们必须区分成为某个原因之结果的“有效”必 
要条件和导致某种结果的“因果”必要条件。 

其次，必须区分相关与琐细必要条件。存在议会是选举候选人的必要条 
件，却是科学进步的琐细和无用的条件。布劳莫勒和戈茨区分了必要条件方法 
的两个步骤 (Braumoeller Goertz ， 2000)。第一步确定某事件是不是必要条 
件(如果不是，第二步就无关了）。如果是必要条件，那么此事件是相关的还是 
琐细的必要条件。 

总而言之，如果/^是9的充分条件，那么，/>蕴含了 <7,或说9被蕴含。/> 
或例如，在比例代表制下，获得最多选票是当选的充分条件但并非 
必要条件，因为选票数量第二和第三的候选人也能当选。如果/>是 9 的必要条 
件，那么，被 g 蕴含，或 g 蕴含了 p 。 p—q 或 p [ q 。 例如，在两轮选举系统 
下，在第一轮获得最多选票是当选的必要条件但不是充分条件，因为只有在 
第一轮或第二轮获得50%以上的选票，才能当选。 
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如果户是 g 的充分必要条件，那么4蕴含了 ？，且同时被 g 蕴含，反之亦然， 
即 9。 这被称为“等价”或“互为条件”。例如，在多数制下，获得最多 
选票是当选的充分必要条件。 


密尔法 


我们从讨论密尔法以及普沃斯基和特恩的差异最小和差异最大设计开始， 
并且认为定量的/统计的和定性的/布尔代数的方法都基于此。定性的/布尔代 
数的方法基于密尔三法或归纳推理方法 （ Skocpol ，1984 a : 378; Zeldtich , 1971： 
267) ——求同法、求异法、求同求异并用法。而定量的/统计的方法则是基于共 
变法(尽管按照密尔的看法，所有方法最终都根源于求异法）。 

求同法 

密尔这么定义求 同法： 

如果两个以上事件只有一个条件相同，那么这一所有个案都具有的条 
件就是既定现象的原因（或结果 h ( Mill , 1875：451) 

研究者希望能够解释在所有个案 (£) 中都存在的条件。如果这些事件在若 
干可能的前件条件中，只有一个共同前件① ( C )， 那么这一所有个案都具备的前 
件就是现象的原因(或结果）。[ 18 ] 

此类型分析可用下表表示 （1 表示条件成立，0表示不成 立）： 

假设有 5 次社会革命事件（£)，研究者希望发现革命发生的原因 （ C )。 
在这些可能的原因中，有不平等的阶级结构 （ Q ) 、威权政治体制 （ C 2 )、 弱国 
际地位 （ C 3 )、 低财富水平 （ C 4 )、 战争失利 （ C 5 ) 及其他 （ C „)。 在这 5 次革命 


①前件 ( antecedent ) 是假言判断中规定条件的判断。后件 ( consequent ) 是假言判断中反映依赖 
于某种条件的事物情况的判断。如在“如果战争失利，就会发生社会革命”中，“战争失利”就是前件, 
“发生社会革命”就是后件。——译者注 



基于布尔代数的比较法导论 


事件 
(个案）- 




潜在原因（自变量） 


需解释现象 
(因变量） 

C ： 

c 2 

c 3 

c 4 

c 5 . . 


c m E 

1 


1 

1 

1 

1 . . 


. 1 

2 

1 

m 

1 

■1 

1 . . 


. 1 

3 

1 

_ 

SI 

1 

1 . . 


. 1 

4 

1 

1 


■a 

1 . . 


. 1 

5 

1 

1 

■ 

1 

1 . . 


. 1 


的任意一次中都未出现的原因 C, 不应被认为是社会革命的原因。我们会 
猜测，或许贫穷 （c 4 ) 会引发社会不满和革命倾向。然而，如果研究者发现 
在这5个个案中，有一些个案中的人们很富裕，那么这个因素就该被排除。 
除 C 4 之外，假设研究者们进一步排除了 Ci , C 2 , C 3 , 但发现所有这5次社 
会革命发生前，都有战争失利的情况，那么根据求同法，战争结果 （C 5 ) 就是 
社会革命的一个原因。 

求同法基于不变前件和不变后件之间的因果关系。正如拉津 （ Ragin ， 
1987:37) 指出的，这一方法是寻找“不变”的模式——所有关键事件中的不 
变因素通过另一个（前件）在所有事件中都相同的条件来解释。 

求同法经常与差异最大设计 （Przeworski & Teune , 1970:34— 39) 联系 
在一起。在差异最大设计中，研究者从不同的情境下抽取个案，且各个事件 
的大量条件都有差异。然后，研究者寻找个案共同点来识别现象的原因。 

在斯考切波的《国家与社会革命 》 (Siato awe / Social Revolutions ) 一书中， 
她解释了 3个发生革命的个案，强调并无太多共同点的3个个案之间的“关键相 
似性” ( Skocpol , 1984 a : 379—380)。研究者控制了结果（结果即发生革命），然 
后从不同的情境下选取个案，从而消除大量个案之间并无共同性的前件，最后 
把共同条件分离出来。 

戴穆尔和伯格-施洛瑟强调了，这种设计实际上就是“同果差异最大设计” 
( MD - SO)(De Meur &- Berg - Schlosser , 1994)。他们提出一个基于测量个案间 
(比如，国家)差异的测度——“布尔距离 ” （Boolean distance ) ——就是那些能区 
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分个案的二分变量的总 数目。 如果两国在许多二分变量上不同，那么它们就比 
那些在所有变量上无差异的情况具有更大的布尔距离。通过“相似/相异矩 
阵”，他们选择一些具有相似结果的国家，并且识别出能解释这一现象的一些关 
键相似性。 

这一方法的局限性何在？首先,这一方法遇到了实际操作上的困难，因为 
它要求样本个案在各个方面都不同，而只在一方面相同。其次，当我们发现两 
个以上的前件都在各事件中保持不变时，就会产生另一个问题。这一方法无 
法判定到底哪一个不变前件是现象真正的原因。最后，这一方法无法处理多 
重因果性，即在某个案中，£：是由 G 导致的，而在另一些个案中，却是由 C 3 导 
致的。 

求异法 

密尔这样定义求 异法： 

如果现象发生在一个事件中，而在另一个事件中没有发生，而这两个 

事件在每一个条件上都相似，而只有一个条件不同，且这个不同的条件只 

发生在第一个事件中。这一条件就区分了这两个事件，它是现象的结果或 

原因，抑或原因之不可或缺的部分。 （ Mill , 1875：452) 

密尔把求同法当做现象间因果关联较弱的展示，并认为求同法的弱点可由 
求异法来克服。如果在所有的前件中确实有一个不同，那这就是原因或现象的 
结果本身。如果 C 导致£：，我们不仅希望在£出现的地方发现 C ， 还希望如果 C 
不出现，那么 E 也不出现。这一方法对比两种类型的事件 ：为真 （1) 和为假 （0) 
的结果£：，可用下面的表格表示。 

迈克尔.摩尔 （Michael Moore ) 的电影《科伦拜校园事件》 （ BowZz ' wg ' /or 
提供了一个很好的例子。他观察到，美国和其他国家(英国、加拿大、 
法国、德国）的差异是，在美国，有大量死亡是由枪械造成的。这种差异不能由 
这些国家的相似条件来解释，从而摩尔排除了诸如暴力传统、多民族混居和贫 
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事件 
(个案) 




潜在原因（自变量〉 

需解释现象 
(因变量〉 

C , 

C 2 

c 3 

c 4 

c 5 . . 

. c m E 

1 

1 

0 

1 

1 

0 . . 

. . 0 

2 

1 

0 

1 

1 

0 . . 

. . 0 

3 

1 

0 

1 

1 

0 . . 

. . 0 

4 

1 

0 

1 

1 

0 . . 

. . 0 

5 

1 

0 

1 

1 

1 . . 

. . 1 


穷等原因。另一个被排除的原因是枪支自由买卖，因为在加拿大，情况也是如 
此。他得到的结论是，最有解释力的变量是更高水平的不安全感，美国社会弥 
漫着这种不安全感，这是由令人叹为观止的商业信息系统和缺乏公共福利所造 
成的。 

求异法考虑事件尽可能多的相似性。由于相似性本身不能解释差异，因 
此，所有事件都具有的因素就可被排除岀原因之列。这一方法常与实验法联系 
在一起，因为它模仿了“实验条件”——只有一个自变量变动，而其他变量都保 
持不变。在社会科学中，这种接近实验的数据非常少见。一国之内两个时点的 
纵贯数据提供了这种情境 ( Skocpol ， 1979:37)。另一个方法是把经验个案与想 
象的或反事实的个案当做理想类型进行对比 ( Bailey , 1982； Bonnell , 1980； Ra - 
gin , 1987:39; Stinchcombe , 1978)。 

求异法常与差异最小设计方法联系在一起 （Przeworski Teune , 1970： 
32—34)。通过选择那些在许多属性上都相同的个案，研究者可排除这些属性， 
并聚焦于少数属性，即那些在个案之间变动的属性，从而检验它们之间的因果 
关系。这种研究设计在“区域研究”中很常见，它们常常从具有大量共同性的地 
理区域中选取个案。 

在此，戴穆尔和伯格-施洛瑟强调说，这一设计是“异果差异最小设计” 
( MS - DO)(De Meur &- Berg - Schlosser , I 994 ) ，并且通过相似/相异矩阵，我们 
可识别少数/大量变量具有相似取值的个案。测量成对个案之间的“布尔距 
离”，使我们可从不同结果中分离岀个案差异，而这些差异或可解释在其他方面 
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都相似的个案的不同结果。例如，芬兰和爱沙尼亚是两个最接近的例子，它们 
两个的“布尔逻辑距离”非常小，这两个国家在非常多的变量上都有相似取值 
(61 条属性中只有 14 条不同）。尽管如此，前者(芬兰）的民主制得到了维系，而 
后者(爱沙尼亚)的民主制却崩溃了。相似/相异表允许研究者研究那些存在最 
显著差异的地区。在芬兰和爱沙尼亚的例子中，不同结果可能由不同的政治文 
化造成。 

戴穆尔和伯格-施洛瑟强调说，既然存在大量可解释社会世界差异的潜在变 
量，那就很难严格贯彻寻找“决定性差异”(就求异法而言)或“决定性相似性”(就 
求同法而言)的想法。这很明显，想要寻找单独的、决定性的相似性或差异性来 
作为既定现象的单一原因可以说是无效的。社会科学家发现某一有趣现象的 
单一原因，而社会现实却比此复杂得多。事实上，并无太多比较研究关注分离 
出某现象的原因。 

首先，我们必须用实证的态度，通过形成关于其影响的特定假设，来理解单 
一因素导致结果的想法。其次，相比检验单一因素，比较法检验组合因素的影 
响(两个以上变量取值或分数的组合）。例如， X :出现与 X 2 不出现确实解释了 
一个特定结果。再次，为增加控制，应同时采用两种方法——同果差异最大和 
异果差异最小。如上面强调的，求同法自身不能够解释多重因果或“同等性”， 
每一相同结果都可能有多个原因。只有用同果差异最大方法弥补异果差异最 
小方法时，才能发现多重因果和因果复杂性。将两种方法结合，使得我们可以 
继续讨论社会科学中最主要的比较方法。 


求同求异并用法(或间接法) 


求同求异并用法是两种方法的联合，密尔这么定义该 方法： 

如果两个及以上的事件在某一现象发生，只有一个共同条件，同时，当 
这一条件不成立时，在两个以上事件中都没有此现象发生，那么，该条件本 
身就可区分两组事件。这个条件就是该现象的结果或原因，抑或原因之不 
可或缺的部分。 ( Mill , 1875：458) 
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如前所述，求同法的限制在于，研究者可能会发现两个以上的前件条件均 
保持不变的情况。那么，如何能够在它们之间作岀区分，从而确定哪个是原因 
呢？求同法并不能提供答案。唯一的解决方案是引人“反例”，即那些结果未发 
生的个案。 

这一方法可以用下表来 表示： 


事件 
(个案) 




潜在原因（自变量） 


需解释现象 
(因变量） 

C , 

C 2 

c 3 

c 4 

Cs . . 


C m E 

1 

1 

1 

1 

1 

1 . . 


. 1 

2 

1 

0 

1 

0 

1 . . 


. 1 

3 

1 

0 

0 

1 

1 . . 


. 1 

4 

1 

1 

0 

0 

1 . . 


. 1 

5 

1 

1 

0 

1 

1 . . 


. 1 

6 

1 

0 

1 

0 

0 . . 


. 0 

7 

1 

1 

1 

0 

0 . . 


. 0 


以前面所举的例子为例，假设所有5个国家都有同样的阶级结构 (G ) ，但 
在政治体制、国际地位和财富水平上有差异。在这种情况下，求同法会消除 C 2 、 
C 3 和 C 4 , 但问题是，阶级结构 ( Ci ) 和战争结果 ( C 5 ) 中，哪个是革命的原因？如 
果只取5个“正面案例”，即结果发生的个案 （£= 1)，那么，求同法无法帮助我 
们进行区分。通过加入“反例”6和“反例”7 (£ = 0), 上表(案例6与案例 7) 表 
明， C 5 不成立时，£就不成立 ;(：! 成立时，£依然可能不成立。 

这种方法的一个应用是摩尔的《专制与民主的社会起源 》 （Social Origins 
of Dictatorship and jDemocrao /) ，在书中，作者试图解释不同体制是如何发展 
起来的。摩尔运用了几个个案，向读者展示了不同阶级构成的影响。比如，贵 
族与资产阶级的联盟导致了自由民主(英国），而那些君主与贵族阶级形成联盟 
反对资产阶级的国家，其结果是法西斯主义（日本）。尽管在摩尔的书中，这一 
方法是隐含的，但它仍然是这种比较方法的最佳例子。 

斯考切波的《国家与社会革命》一书明确使用了求同求异并用法。她通过 
求同法，利用3个具有相同结果但其他方面相当不同的个案，来寻找共同解释因 
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素。接着，她引入了求异法，通过引入反例来寻找解释因素。这种求同求异并 
用法的使用，使她辨别出关键变量“国家崩溃”。当革命发生时，这一因素总是 
系统性地岀现，而革命不发生时则不出现。在所有出现革命的个案中，国家力 
量都在先前的大战中被削弱了 一制度变松散了，国家应对骚乱的能力变 
差了。 

求同求异并用法经常被称为“间接差异法”。之所以有这个名称，是因为求 
异法只在实验室条件下才有可能实行，在那里，变量的取值或分数可以被直接 
操控。相反，在社会科学中，变量取值或分数的变异只能通过考察正面和反面 
案例一结果或出现或不出现的个案（因此是间接的差异)——来得到。 


共变法 

通过共变法，我们离开“性质”(属性成立与否)领域，而进人到“数量”(属性 
变异强度或大小)领域。与依赖二分变量不同，这种方法基于程度和连续变量。 

密尔这样定义共 变法： 

现象 P 发生变化，另一现象 g 随之变化。那么，这两个现象的这种相 

互作用就表明 ，户是 <?的原因，或9是 P 的原因，或两者都是同一个原因的 

结果。 ( Mill , 1875:464) 

条件陈述作为两个以上变量取值的协方差而被正式化——“……越高， 
则……越高”，“……越低，则……越低”或“……越高，则……越低”或最终的 
“……越低，则……越高”。例如，“年纪越大，投票行为越保守”。 

拉津和扎雷特把共变法与密尔的前三种方法对立起来，把共变法称为“涂 
尔干”式定量统计策略，而把密尔前三法称为“韦伯式”比较定性策略 (Ragin 
Zaret , 1983)。然而，除了很难把所有“比较学者”都归人韦伯阵营外 （ Skocpol ， 
1984 a :360)， 求同法和求异法也可基于一个自变量属性的出现与否与另一个因 
变量属性的出现与否之间的关联性。正因如此，和其他方法一样，共变法最终 
仍基于求异法，即考察的是0和1之间的关联性。两类方法的区别只在于，数据 
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本质上是离散的还是连续的。 

对密尔法的批评 

对这些方法有两类主姜的批评，两者都直接指向密尔及他之前的培根宣称 
的这些方法的重要性，即密尔法是发现现象的原因与结果的工具，并且是展现 
原因一结果关联性的逻辑工具。这些“宣称”说明，这些方法会指导科学研究发 
明一种能够机械地、系统地发现和证明因果关联的方法 (Cohen & Nagel , 1934： 
245—267; Copi , 1978:352—364)。 

先来看发现的方法。首先，密尔法要求所有的前件都被纳人分析，以识别 
原因。然而，纳人所有的条件（例如，在求异法中，两个事件必须在除一个以外 
其余所有条件上取值都相同）会使得工作相当繁琐，因为条件数目是无限的。 
正因如此，要求纳人所有前件必须被理解为只纳入那些相关的因素。 

决定哪些是相关前件并非方法的问题•而是一种额外的知识。在应用密尔 
法之前，研究者必须决定把哪些前件纳人“模型”。但是，这些方法不能消除遗 
漏相关因素的风险。因此，它们并不能发现未知或意外事件原因的方法，最多 
能帮助研究者在那些可能具有潜在相关性的因素中，识别出最有可能的原因。 
这就是说，发现还须理论指导。 

其次，密尔法不能提供对前件分析的指导。这事关研究者如何处理潜在的 
解释变量。减少变量数量可使研究者聚拢解释因素，并发现给定的政治文化增 
加了“社会凝聚力”。同时，我们可能会同时单独考虑政治文化几个不同方面 
(信任水平、认同类型、传统性和现代性之间的平衡，等等），并发现只有部分因 
素影响了政治不稳定性。再次，前件的分析可依靠应用密尔法之前的额外知识 
而展开。 

再来看证明的方法。考虑到这些方法是展示性的，于是便产生两类批评。 
首先，根据第一点，如果忽略了相关变量，且/或前件分析不正确的，那么，因果 
关联的结论或许就是错误的。既然考虑每一个可能前件是不可能的——或许 
与错误分析混在一起一那么就不能证明某原因是真正原因。关系可能是虚 
假的、有条件的或间接的 （ Ragin ， 1987：37； Zelditch , 1971:300—305)。其次， 
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更一般而言，归纳推理从来不是逻辑上证实论的，因为它们基于部分而非所有 
事件的经验观察。只要还有未被观察的个案，这一因果关联就存在被推翻的可 
能性。 

这一批评不仅适用于密尔前三法，而且同样适用于共变法和统计学。甚至 
在那些依赖大量观测个案的研究设计当中，对未观测个案属性的推断也从来不 
是确定的，最多是很有可能。一般而言，有效演绎陈述构成了证明，而因果关系 
的归纳陈述总是或然性的。 

因果关系的“发现和证明”要求在应用这些方法之前，对前件作出一些预 
设。用密尔自己的术语来讲，密尔法既非发现，亦非证明的充分工具。 


假设与演绎有效性 


那么，既然这些方法“既非证明方法，又非发现的方法 ” （Cohen Nagel , 
1934:266)，那么它们又有何价值呢？上述看法是从严格意义上考虑的，但密尔 
自己只谨慎地希望把这一方法作为系统性科学探索的一个指引。所以，尽管既 
非发现又非证明的方法，但它们依然是不可或缺的分析工具。 

首先，既然不可能把所有的前件都纳人进来，那么这些方法就要求事先形 
成一些假设，即研究者需要对纳人那些与解释现象相关的条件进行说明。因 
此，这些方法必须与某些假设一起使用。 

其次，这些方法是排除虚假因果关系的规则。它们被认为本质上是排除性 
的，而非列举性的归纳方法。一个假设并不会因为事件支持它而被确认，只是 
由于目前它仍未被排除。一般性陈述根本不能被证实，它们只能被证伪 （ Pop ¬ 
per ， 1959、1989)。排除一些假设可以帮助确认那些能经受证伪检验的假设。 
排除性归纳提供了一个更强的归纳。支持一个假设的证据只可能是部分的（从 
来不会是绝对的），而拒绝或者排除它是绝对的(一次足够）。因此，形成假设时 
需注意它必须是可证伪的，即设定哪些情况可证伪假设。 

如果我们定义了一组关于£原因的备择假设 ( Q 、 C 2 、 C 3 或 C 4 作为假设性 
解释因素），同时排除了 C ! 、 C 2 和 C 4 作为£的原因，但未排除 C 3 ，那么 C 3 被确 
认为是 E 的原因。不仅关于0 3 和£的因果关联的假设通过经验检验未被拒绝 
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(而 Q 、 C 2 和 C4 已被拒绝），且这一推论是基于有效的演绎论的。 
下面的三段论可证明这一点(这一例子应用了求同 法）： 


如果<^是£的原因，那么£不可能在。不成立时出现 

有一个(或更多)个案显示， g 发生，而<^却不发生 
/.Ci 并非£：的原因 


这一结论是有效的演绎法，因为这一论断在三段论的第一行包含了一个假 
设，或更精确地说，一个“假设前提”。接着，科恩和内格尔根据排除性的认识论 
的假设检验法，提出一个“否定表达式”的求同法和求异法的公式 (Cohen Na¬ 
gel， 1934)。根据这一个 公式： 

当一个条件并非所有为真现象的共有条件时，这一条件不可能是现象 
的原因。 （Cohen &• Nagel， 1934: 255) 当假设的原因（条件）出现时，现象并 
未出现，那么，这个条件不可能是现象的原因。 [ 19 ](Cohen Nagel, 1934： 
259) 


必须有一个假设 H 或者一组备择假设， H 2 , H 3 , …）。经验研究排除 
了那些非真的假设。在下文，我们将再次介绍必要与充分条件的区别，并介绍 
那些建立因果关联的策略。下面的介绍将遵循以下两大策 略:基 于结果和基于 
原因。就前者而言，研究者努力去发现现象的原因（大部分发生在社会科学 
中）; 就后者而言，研究者试图发现现象的效果(在实验室研究中很典型）。这两 
种研究策略的区别在于，是选择正面案例还是反面案例。 



第 7 章 I 布尔代数比较方法 


本章分为3个主要部分。首先是介绍检验单个因素作为充分和/或必要条 
件的5种方法，它们都基于求同法、求异法和求同求异并用法(间接差异法)。其 
次是介绍联合方法，它基于建构自变量取值而进行解释。这两个部分处理的都 
是二 分数据，即变量值或出现 (1) 或不出现 (0)。 最后一部分处理的是非二分数 
据，即模糊集合分析。 

寻找充分条件 

根据结果(方法 1) 


如前面所说的，就充分的“原因”而言，充分条件比必要条件更易理解。所 
以，我们从充分条件开始。如果 C (一个假设的原因）是£(一个假设的结果）的 
充分条件，那么， c 蕴含了 £，条件真值表 如下： 



如果 C 是 E 的充分 条件， 那么就不会有 C 出现而£却不出现的个案。这就 
是说 ， C = 1且£ = 0的组合(组合 D ) 是不可能的，或用贝叶斯概率符合表示就 
是 pcc | 〜 £：) = 0。注意，组合 n 拒绝这一假设。例如，比例选举制系统是多党 
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制的充分条件，那么就不可能有比例选举制和两党制并存的系统。 

根据演绎 逻辑： 

如果 C 是 E 的充分条件，则£不成立时， C 也不可能岀现 
有一个(或更多)个案显示， E 未出现，而 C 却发生了 
二 C 并非£的充分原因 

在实践中运用这一研究策略，一些 E = 0的个案被选取出来。潜在的充分 
条件 ( q ， c 2 , c 3 , …)被检验且很可能被排除。根据组合 n 的真值表，可以排 
除 C = 1 ， E = 0这一组合。 


事件 
(个案） 




潜在的充分条件（自变量） 



结果 
(因变量） 

C , 

c 2 

G 

c 4 

c 5 . . 


a, 

E 

1 

1 

0 

1 

1 

0 . . 



0 

2 

0 

0 

1 

1 

0 . . 



0 

3 

0 

0 

1 

1 

0 . . 



0 

4 

1 

0 

0 

1 

0 . . 



0 

5 

1 

0 

0 

1 

1 . . 



0 


根据此表，除了 C 2 , 我们可以排除所有潜在条件，它们都不是充分原因。这 
就是说，我们不能排除那些 C = 0, £ = 0的个案(组合 IV )。 


根据原因（方法 2) 


如果 C 是£：的充分条件，那么，每当 C ' 出现时,£必然出现。如果£不岀 
现，那么 C 就不是 E 的充分条件。其次， C ' 蕴含了 E ( C — £：)，其条件真值表与上 
文方法1的相同。 

作为根据结果的方法，如果 C 是£：的充分条件，那么，就不应有任何一个 C 
出现而£：不出现的个案。也就是说，没有 c = 1且£：=0 (组合 n ) 的组合，或者 
用贝叶斯概念符号表示，即 p ( c 丨〜 £) = 0。再次提醒，是组合 n 拒绝了假设。 


演绎推论形式是一 样的: 
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如果 C 是 E 的充分条件，那么 E 不成立时， C 也不可能出现 

有一个(或更多)个案显示， ■£ 未出现，而 C 却发生了 
/. C 并非£：的充分原因 

在实践中，研究策略是不同的。与选择 E = 0 那些个案（即结果未发生的反 
例)不同，我们根据 C = 1选择个案，即在所有的个案中，我们假设为充分条件的 
条件总是出现。根据这一方法，所有被选择的个案都是 C = 1的。然后，结果 
( E X , Ez , E 3 , …)被检验且我们很有可能排除备择假设。根据真值表组合 D ， 
我们排除组合 C = 1，£ = 0。 


事件 
(个案） 

潜在充分 
条件（自变量） 




结果（因变量） 

Q 

E ] 

e 2 

E 3 

Ei . E m 

1 

1 

0 

1 

1 

0 . . . . 

2 

1 

0 

1 

1 

0 . . . . 

3 

1 

0 

1 

1 

0 . . . . 

4 

1 

0 

■ 

1 

1 . . . . 

5 

1 

0 

! 1 

1 

0 . . . . 


这是一种更加“实验”和实践取向的方法，因为它控制了原因，并试图识别 
其结果。根据上表，我们排除 C 是£^、 E 2 和及的充分条件的可能性。但我们 
不能排除 C 作为£ 3 的充分条件的可能性。也就是说，不能根据 C = 1， E = 1 
(组合 I )而拒绝充分条件。 

寻找必要条件 

根据结果(方法 3) 

根据这一方法，给定事件£：，我们想知道，在一系列潜在的必要条件中，哪些 
因素会被拒绝，而哪些不会。 

正如上面所讲的，如果 C (一个假设的原因）是 £：( 一个假设的结果）的必要 
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条件,那么 C 被£所蕴含 (C—£) ，条件真值表 如下: 



E 

— ► 

c 

I 

1 

1 

1 

n 

1 

0 

0 

ID 

0 

1 

1 

IV 

0 

1 

0 


此时，是 C, 而非 C-£( 如充分条件那样）。 

如果匸是£的必要条件，那么就不会有£：存在而 C 不出现的个案。也就是说, 
不存植合 C = 0且£： = 1 (组合II)，用贝叶斯概率符号表示就是 P (〜 C | E) = 0。 
又是组合 n 拒绝了假设。如果公民政治文化是民主制的稳定性的必要条件，那么，就 
不会出现任何个案的民主制是稳定的而公民政治文化却缺失的情况。 

根据演 绎法： 

如果 C 是£：的必要条件，那么 E 成立时, C 不可能不出现 

有一个 (或更多) 个案显示， E 发生了，而 C 却未出现 
/.C 并非£的必要条件 

在实践中，通过这一研究策略，我们选择那些£：= 1的个案。然后检验潜在 
的必要条件 （Ci，C 2 , C 3 , …）并排除它们。根据真值表组合 D， 排除那些 
C = 0, E = 1的组合。 


事 f 牛 潜在的必要条件（自变量) 

(个案）- 

Ci Cz C3 C4 C5 . 


结果 
(因变量) 


C m E 


1 10 110 .... 1 
2 0 0 1 1 0 .... 1 

3 0 0 1 1 0 .... 1 

4 10 0 10 .... 1 

5 10 0 11 .... 1 


根据此表，我们可以排除 C 4 之外的潜在条件(作为 E 必要条件的可能性）。 
也就是说，我们不能拒绝 C= 1, E= 1的组合I。 
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如布劳莫勒和戈茨 (Braumoeller & Goertz , 2000: 846) 指出的，当检验得 
出0是£的必要条件时，如果 C 在 E 出现时也总出现，那么，那些 f ： = 0 的个案 
是无关的。这可用下表来 表示： 


0 
E 

1 

在此表中，当£出现时， C 总出现，即 P ( C | E ) = 1 0 我们只选择那些 f ： = 1 
的个案。 


C 

0 1 


一 

— 

0 

1 


根据原因（方法 4} 


如果 C 是£：的必要条件，那么当 C 不出现时，£：也不会 出现; 如果£出现， 
则（:并非£：的必要条件。并且， C 被 E 所蕴含 ( C — E )。 条件真值表与方法3 

一样①。 

正如基于结果的方法一样，如果 C 是 E 的必要条件，那就不存在£出现而 
c 不出现的个案。也就是说，不存在 c = 0且£ = 1组合(组合 n ) ，或用贝叶斯 
概念符号表示为 P (〜 C | E ) = 0 o 组合 II 用于拒绝假设。 

演绎法表示方法 相同： 

如果(：是£的必要条件，那么 E 成立时， C 不可能不出现 
有一个(或更多)个案显示， E 发生了，而 C 却未出现 
/. C 并非£:的必要条件 

在实践中，研究者的策略却不同。与根据£= 1而选择个案不同(根据事件 
发生），我们根据 C = 0进行选择， g 卩那些假定必要条件不出现的个案。通过这 
一研究策略，我们选择的都是 C = 0 的个案。检验结果(拉，松，&，…〉，然后 


① 原文是 “Again ， C implies E, C—E，and the conditional truth table is the same as above in 
Method 3 on effects ”。 这明显是错误的， C~-E 是充分条件的表述，而必要条件应当是 C—E ， 且同为必 
要条件表述的、基于结果的方法 3 明确使用了 C—E 。 因此，根据文意改正。——译者注 
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排除部分个案。根据真值表组合 n ，我们排除那些 c = 0且£ = 1的个案。 


事件 
(个案） 

潜在必要 
条件（自变量） 




结果（因变量） 


C , 

E , 

E 2 

E z 

E A . . . 

E tn 

1 

0 

1 

1 

0 

0 . . . 


2 

0 

1 

1 

0 

0 . . . 


3 

0 

0 

1 

0 

0 . . . 


4 

0 

0 

0 

0 

1 . . . 


5 

0 

0 

0 

0 

1 . . . 



另外，作为基于原因的方法，这是一个更“实验性”的方法。根据此表，我们 
可以排除 c 作为&、 e 2 和 e 4 的必要条件，但不能排除 c 作为 e 3 的必要条件， 
因为我们不能根据 C = 0且 E = 0 ( 组合 IV ) 而拒绝条件 C 为 E 的必要条件。在 
C 不出现时看£是否出现，从而检验 C 是不是£：的必要条件，在此情况下， 
C =1 的个案是无关的。 


0 

E 


当 E 不出现时， C 也总是不出现，即 P (〜 C | 〜 £：) = 1，因此，只选取0 = 
0的个案。 

总而言之，所有4种方法都是根据组合 H (C = 0, E = 1) 来拒绝 H (假 
设）。在检验充分条件时，基于结果的方法1，不能根据组合 IV (C = 0, E =0) 
来拒绝 假设; 基于原因的方法2,不能根据组合 I ( C = 1，£：= 1) 来拒绝假设。 
而在检验必要条件时，基于结果的方法3,不能根据组合 I ( C = l ， £=1)来拒 
绝 假设; 基于原因的方法4,则不能根据组合 IV (C = 0, £ = 0) 来拒绝假 设①。 


①此处原文是 “With the methods based on causes we do not reject H based on combination IV 
(0 ， 0) and with the methods based on effects, wc do not reject H based on combination 1(1 ， 1 )”。 问 
题在于，这里总结的是 4 种方法。同为基于结果的方法，充分条件方法 1 和必要条件方法 3 所不能拒 
绝假设的组合是不同的。同为基于原因的方法，方法 2 和方法 4 不能拒绝的组合亦不同。因此，根据 
文意改正。一译者注 


C 

0 1 


1 

— 

0 

— 
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这些方法可与不同的研究策略一起拒绝虚假假设。如果要检验比例选举 
制 ( PR ) 是多党制 （ MPS ) 的充分条件，那么我们可以基于原因，选择那些 PR = 1 
的个案，看是否所有 MPS = 1，然后基于结果，选择那些 MPS = 0 ( 即两党制）的 
国家，看是否存在个案 PR = 1。相反，如果想看比例选举制是不是多党制的必要 
条件，那么我们可以基于原因，选择那些多数票制的国家 （PR = 0)， 看是否存在 
MPS = 1的个案，然后基于结果，我们选择那些 MPS = 1的国家，看是否存在 
PR = 0 的个案。 

简言之，控制假设可通过下述方式进行 :选择 原因，观察其结果或选择结 
果，追溯其原因。 

研究策略的选择经常基于有哪些、有多少个案可用。在实践中，使用不同 
方法的组合能增强解释力。 


“琐细” 


布劳莫勒和戈茨首次把“琐细”正式化。他们提岀这一 问题: “是什么使地 
心引力成为战争的琐细必要条件 ?” (Goertz Starr , 2003)。有两种主要的琐 
细形式和一种非琐细个案。 

琐细类型1:如果当£出现时， C 总是出现，那么 C 是£：的必要条件。如果选 
择那些 E = 1的个案，那么总有 C = 1 (方法 3) 。然而， C 有可能在£ = 0时同样 
出现。地心引力是不是战争的必要条件呢？是的。因为发生战争时（£= 1)，地 
心引力总是存在 （ C = l )。 在这一个案中，自变量 ( C ) 不存在变异。地心引力对 
战争发生和不发生而言，都是一个琐细的必要条件。 

P(C | 〜 £：) = 1 且 P(C | £：) = 1 

琐细类型2:当 C 不出现时，£也总不出现，那么 C 是£：的必要条件。如果 
选择 C = 0 那些个案，那么总有 E = 0( 方法4)。然而，£：可能在 C 出现时同样 
不出现。那么，至少一■方是威权国家是不是战争发生的必要条件？是的。因为 
没有威权国家时 （C = 0 ), 不发生战争 （E = 0) o 然而，即使存在威权国家，也 
可能不发生战争。在此例中，因变量 ( E ) 没有变异。因此，威权国家同时是发生 
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战争和不发生战争的琐细必要 条件: 


P (〜 C | 〜 £：) = 1 且 P(C I 〜 £) = 1 

非 琐细: 为了避免类型1和类型2的琐细性问题，自变量和因变量 ( C 和 £) 
都必须具有一定的变异。为了避免琐细类型1，我们需要在自变量 ( C ) 上有所变 
异; 为了避免琐细类型2,我们需要在因变量 ( E ) 上有所变异。在实践中，这意味 
着我们需要同时使用方法3和方法4来满足非琐细必要条件。如果 PR ( 比例选 
举制)是 MPS (多党制）的必要条件，那么在 MPS 出现时， PR 也总是出现，即 
P(C | £) = 1。然而，为了避免琐细性(类型1)，当 MPS 不出现时， PR 也必须不 
出现，即 P(C | 〜 £：) = 0。另外，如果 PR 是 MPS 的必要条件，那么在 PR 不出现 
时， MPS 也不出现，即 P (〜 C | 〜 £) = 1。然而，为了避免琐细性(类型2)，在 
MPS 不出现时， PR 也不能出现，即 PCC 卜 £) = 0。因此，我们总结 如下： 


P(C I E ) = 1 且 P (〜 C I 〜 £) = 1 


琐细类型 1 
C 


琐细类型2 
C 


非琐细 

C 


0 1 


0 

1 

0 

1 


0 1 


1 

1 

0 

0 


0 1 


1 

0 

0 

1 


充分必要条件（方法 5) 


上面讨论的4种方法为更复杂的分析提供了基础。首先，它们允许我们识 
别那些既充分又必要的条件。其次，它们提供了进行多变量分析和联合分析法 
的工具。 

为了识别那些充分必要条件，我们必须使用两种真值表。将充分条件和必 
要条件的真值表组合起来，使我们能识别出充分必要条件。然而，与只依赖组 
合 n 来拒绝假设不同，这一组合依据组合 n 与组合 m 来拒绝假设。 


真值表 如下: 
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C 


<-> 

E 


I 



1 


1 

1 


n 



1 


0 

0 


ni 



0 


0 

1 


w 



0 


1 

0 

在这里 ，- (或 =) 代表“等价于”或“互为蕴含”。 

在简单的充分或必要条件 

的真值表中，只有组合 n 的中间栏是0,而在充分必要条件的真值表中，组合 n 

与组合 EI 中间一栏都为0。 





在实践中，我们先后使用这两张真值表。 

首先,排除那些非充分条件。其 

次，在第一阶段检验中“存活”下来的条件里面排除非必要条件，剩下的条件就 

都是充分必要条件了。 






事件 
(个案） 



潜在的充分必要条件（自变量） 

结果 
(因变量） 

G 

c 2 

c 3 

c 4 

a . 


. Cm E 

1 

1 

1 

1 

1 

1 . 


. . 1 

2 

1 

0 

1 

0 

1 . 


. . 1 

3 

1 

0 

0 

1 

1 . 


. . 1 

4 

1 

1 

0 

0 

1 . 


. . 1 

5 

1 

1 

0 

1 

1 . 


. . 1 

6 

1 

0 

1 

0 

0 . 


. . 0 

7 

1 

1 

1 

0 

0 . 


. . 0 


如果(：是£:的充分条件，则当 C 出现时，£：也总是出现，即 P(C | £) = 1； 
而当 C 出现时，£:不能不出现，即 P ( C 卜 E ) = 0。若非如此，则可以根据组合 n 
而拒绝 H 。 在上表中，可以拒绝 Q 、 C 2 、 C 3 作为£的充分条件。不仅如此，如 
果 C 是 E 的必要条件，则当£出现时， C 也总是出现，即 P(C | E ) = 1;同时，当 
E 岀现时， C 不能不出现，即 P (〜 C | E )=0。 若非如此，则可以根据组合 ID 而拒 
绝 H 。 这就排除了 C 4 作为 E 的必要条件。这一方法实际上基于求同求异并用 
法(或称“间接法”)。 
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用逻辑代数进行多变量分析 

前面的方法受到批评是由于它过于复杂，尤其是应用于多变量分析时。 

这方面方法的发展来自逻辑运算 (Cohen Nagel , 1934； Nagel , Suppes &- 
Tarski , 1963； Roth , 2004; von Wright , 1951)。 这一■节将首先展不逻辑代数 
的基本符号及它们在多变量研究设计中的用处。其次将介绍布尔分析法。最 
近，有些很有影响的文献强调在多变量分析中设置代数方法的可能性 （ Ragin , 
1987： 85—163)。当代比较研究设计最主要的优势在于，它可以容纳解释变量 
的建构或组合。 

复合陈述 

多变量分析研究者寻找的是充分和/或必要条件的组合属性，而非单个属 
性。拉津把这种“组合逻辑”作为比较法最突出的特点 （ Ragin ， 1987: 5)。与依 
照递增性逻辑逐个检验潜在充分或必要条件假设的经验有效性不同，这种方法 
检验变量按特定方式组合时的有效性。为解释如何实现这一点，在此需介绍一 
些基本的逻辑代数。 

多变量分析基于联合陈述中的3个基本布尔符号或连接 词:且 、或、非。 

联合符(且)用符号表示是“ • ”或者 “ A ”。 联合符产生两个组成成分都为真 
(1) 的联合陈述 ( Q 且(： 2 )。只要任一个成分为假(0)，那么，这一联合陈述就为 
假。下列真值表说明了复合陈述在其组成项取不同组合形式时的 取值： 

C , Q C , • G 


分离符(或)用符号“+”或“ V ”表示。分离式产生一个联合陈述，当任何 
一个(或全部)组成项为真时，该联合陈述均为真。只有当两者均为假时，联合 



324 


社会科学中的数理基 se 及应用 


陈述才为假。下列真值表表明了一个复合陈述对其组成成分组合形式的 取值: 


C x 

c 2 

c'vc 2 

1 

1 

1 

1 

0 

1 

0 

1 

1 

0 

0 

0 


否定式(非)表示为“〜”。否定式提供了与任何为真陈述相反的取值(简单 
或联合陈述)。它尤其重要，因为它表示原因不成立 （C = 0) 或结果不成立 
(E=0)。 [ 21 ] 

下面举个例子说明联合式(且）。我们发现，单个属性 PR (比例代表制）并 
非 MPS (多党制）的充分条件，且单个属性社会分化程度 ( SF ) 也不是 MPS 的充 
分条件，但联合属性 “ PR 且 SF”(PR • SF ) 是 MPS 的一个充分条件。根据方法 
2,我们排除 PR 和 SF 作为单个属性是 MPS 的充分条件(个案4中， PR 没有产 
生 MPS ， 个案5中， SF 没有产生 MPS )。 然而， PR 和 SF 同时出现却是 MPS 的 
充分条件。 


事件 


潜在充分条件 


结果 

MPS 

(个案） 

PR 

SF 

PR • SF 

1 

1 

1 

1 

1 

2 

1 

1 

1 

1 

3 

1 

1 

1 

1 

4 

1 

0 

0 

0 

5 

0 

1 

0 

0 


在布尔代数中，联合符“且”被称为“乘法”，其结果是一种特定的因果条件 
组合 。 PR . SF — MPS 可以被 写成： 


MPS = PR • SF 或 MPS = PR SF 

当 PR 和 SF 都岀现时， MPS 也出现。通过符号 1*0 = 0 或 0*1 = 0 表示。 
如果两个成分只有一个出现，那么 MPS 就不会出现。只有联合 PR 与 SF ， 才能 
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导致 MPS ， 而任一单独成分都不能导致 MPS 。 这种形式的联合陈述也可以纳 
入“不出现”这一属性。例如，只有当多数票制 （ M )、 非 SF (〜 SF ) 和“无集中于某 
地的少数民族”(〜 TCM ) 共同作用，才能导致两党制体系 ( TPS ): 

TPS = M •〜 SF .〜 TCM 或 TPS = M sf tcm 

在这种情况下，大写字母代表属性成立，而小写字母代表属性不成立。 

在布尔代数中，分离符“或”被称为“加法”，用符号“ + ”表示。这里，加法代 
表只需任一条件成立，那么结果就会发生。这种形式的代数，就是1 + 1 = 1。如 
果我们想知道在某次给定选举中，是什么导致了竞选失败 ( LV ) ,我们会发现，很 
多因素将导致同样的 结果: 政绩差 ( PP )、 同一意识形态下有新的平行党派出现 
( NP ) 或党派领袖的丑闻 ( PS )。 如果任何一个或全部因素成立，那么结果 LV 就 
会发生。条件陈述 PPVNPVPS - LV 可被 写成： 

LV= PP + NP + PS 

其含义为，政府政绩差、出现新平行党派或是政治丑闻都可单独导致政党在选 
举中的失败(或全部3个，或任何2个的组合)。 

联合陈述基于联合(且），而分离陈述则在作出以下区分时很关键： （1) 充分 
非必要 条件； （2) 必要非充分 条件； （3) 既非充分又非必要 条件； （4) 充分必要 
条件。 

分离与多重因果 

首先是充分非必要条件。分离法或布尔加法(或)特别重要，因为它允许把多 
重(元）因果正式化。有时候，经验证据表明某个原因并非唯一原因 （ Zelditch : 
1971: 299)。分离或加法表明，某条件可由另一个条件取代，并产生同样的结果。 

多重因果性可这样表 述:给 定条件 Q 是结果£：的充分条件。然而，既然它 
不是唯一可能的原因，那么，同样的结果可由另一个充分条件 C 2 引发。这正是 
分离法(布尔加法)所强调的。其公 式为： 


£ = Ci + C 2 
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根据原因来建立充分条件(方法 2): 如果 C : 是充分条件，那么，当 Ci = 1 
时，总能发现£：=1，即 P(Ci | E ) = 1， 不存在£：=0的情况，即卜 E ) = 0。 


同样，如果 c 2 是充分条件，那么，当 c 2 

= 

1 时，总能发现£：= 

=1，即 P(Q \ E ) = 

1，且不存在 E = 0 的情况，即 P ( C 2 | 


£) = 0。 然后，如个案 4 和个案 5 表明 

的，两者 ( Ci 、 

c 2 ) 都非必要条件(当 Q 

= 

0或 C 2 = 0时，结果依然发 生）。 

个案 

C , 

C 2 

C 2 

E 

1 

1 

1 

1 

1 

2 

1 

1 

1 

1 

3 

1 

1 

1 

1 

4 

1 

0 

1 

1 

5 

0 

1 

1 

1 


多重因果代表了分离式构型(或），其中和&都是充分非必要条件。 

联合与组合因果 


其次是必要非充分条件。联合或布尔乘法(且)很重要，因为它允许把联合 
因果正式化。有时数据表明，给定因素不能单独产生某个结果，而必须与另外 
一个因素联合。这表示，一个因果条件必须与另一个联合，才能产生结果。 

联合因果性可表示 如下: 一个给定条件 C ! 是结果£：的必要条件。然而，因 
其不是充分条件，则必须在另一个必要条件 C 2 的伴随下，结果£才能发生。这 
可用联合符表示。其公 式是： 


E = Ci - C 2 

根据基于结果的方法3,如果 Q 是 f ： 的必要条件，那么，当£：= 1时，必然 
发现 Q = 1，即 P ( C ! | E ) = 1,同时，不会有。=0的情况，即 PC - C ! 丨 £：) 
= 0。同样，如果 C 2 是£的必要条件，那么，当£ = 1时，必然发现 C 2 = 1,即 
P ( C 2 丨 E ) = 1,同时,不会有 C 2 = 0的情况，即 P (〜 C 2 | £：) = 0。如果这样， 
那么 Ci 和 C 2 都是£的必要条件。不过,如个案 4( 对 C !) 和个案 5( 对 C 2 ) 所表 
明的，它们两个都不是£：的充分条件。 
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个案 

C, 

C 2 

c' .c 2 

E 

1 

1 

1 

1 

1 

2 

1 

1 

1 

1 

3 

1 

1 

1 

1 

4 

1 




5 

0 

1 

0 



联合因果代表的是连接性建构(且） ， Ci 和 c 2 都是必要非充分条件。 

联合连词 


再次是非充分非必要条件。举一个更复杂的例子，其中的条件既非充分又 
市必要条件，但这些条件的两种组合是结果£：的充分必要 条件： 

E = (Ci • C 2 ) + (C 3 . 〜 C 4 ) 


如果单独取出这4种可能的因果条件，则没有一个是充分的或者必要的条 
件，如下表 所示: 


个案 

c, 

C 2 

c, . c 2 

Ca 

c.» 

c 3 - 〜 c 4 

E 

1 

1 

1 

1 

1 

0 

1 

1 

2 

1 

1 

1 

1 

0 

1 

1 

3 

1 

1 

1 

1 

0 

1 

1 

4 

0 

1 



0 

0 

1 

5 

1 

0 


l 

0 

1 

1 

6 

0 

1 

mm 

mm 

1 

0 

0 

7 

1 

0 

WBM 

l 

1 

0 

0 


首先，很容易看出，根据方法2,没有一个单独条件是可以产生结果 E 的充 
分条件，因为当所有 G 都出现时， E 也可以不出现(最下面两行的个案6和个案 
7 ) 。其次，通过选择那些£： = 1的个案(方法 3) ，即当结果发生时，可以排除4个 
作为必要条件的 G ， 因为£在潜在必要条件都不出现时，还是出现了（个案4和 
个案5)。在所有4个变量中，没一个是£这一结果的充分或者必要条件。 

然而，上表却表明！和 C 2 的联合或和非 C 4 ((' 4 =0 ) 的联合产生 t '。 
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组合 Q • C 2 和 C 3 • 〜 C 4 是结果 E 发生的充分 条件： 当第一对组合出现时，结 
果就发生;这同样适用于第二对组合。然而，这两对组合没有一组是必要条件， 
因为当这两对组合不发生(个案4和个案 5) 时，结果£：照旧发生。 

最后是必要和充分条件。联合与分离法可用于理解充分必要条件。 

充分条件<^意味着，无须通过联合其他变量 C ,， 就可以产生结果£:。 C : 
自身就可以产生结果，即丨 E) = 1 且 P(C! 卜 E) = 0 。 

必要条件(^意味着，它不能被其他条件 C , 所取代而产生£。 Q 必须总是 
出现在那些事件发生的个案中， BP P(Ci | £) = 1且不会有£： = 0,即 
P (~ Ci | E ) = 0 o 用布尔代数表示 就是： 

E = Ci 

我们用下表来表示 Q 既是充分又是必要 条件： 


个案 c, E 



简化数据 

正如我们看到的，联合陈述基于联结符(且)和分离符(或），还有否定式(非) 
之间的不同组合(各项之和）。这导致复杂且可能很长的陈述，因而有一些逻辑 
工具被用来简化数据。 

第一种简化因果陈述的方法是最小化。这一工具排除了那些出现在一个 
因素组合(联合）中，但并未在另一个因素组合(分离）中出现的情况，否则组合 
二会等同于组合一。如果两对因素组合仅有一个因果条件不同，且两对组合都 
产生了结果 （ E )( 比如， C 3 在一对组合中出现，但在另一组合中未出现），那么， 
这一条件可被认为与结果不相关。 
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以3个因素 Q 、 C 2 、 C 3 为例，它们同时出现(通过连词“且”)是 E 发生的充 
分条件。我们设想，第二对因素组合(通过连词“或”)也是产生结果£的充分条 
件。然而在第二对组合中， C 3 并未出现(〜 C 3 )。 由此可有如下联合 陈述： 

E = (Ci • C 2 • C 3 ) + (Ci • C 2 C 3 ) 

存在两对备择的因素组合，它们都是结果 E 的充分条件。没有一个因素 G 
单独构成结果£的充分(见个案4、个案5、个案 6) 或必要条件(见个案7、个案 
8、个案9)。然而，这两对因素组合形成了充分条件(但不是必要条件）。在第一 
对组合中，3个因素都岀现，因此 ， Ci • C 2 • C 3 = 1。在另一对组合中，只有前两 
个因素出现，而第三个因素不出现，即 Q . C 2 •〜 C 3 = 1。 


个案 

Q 

c 2 

c 3 

c, . C 2 . c 3 

Q 

c 2 

c 3 

Ci • c 2 • 〜 c 3 

E 

1 

1 

1 

1 

1 

1 

1 

0 

1 

1 

2 

1 

1 

1 

1 

1 

1 

0 

1 

1 

3 

1 

1 

1 

1 

1 

1 

0 

1 

1 

4 

0 

1 

1 

0 

0 

1 

1 

0 

0 

5 

1 

0 

1 

0 

1 

0 

1 

0 

0 

6 

1 

1 

0 

0 

1 

1 

1 

0 

0 

7 

0 

1 

1 

0 

0 

1 

1 

0 

1 

8 

1 

0 

1 

0 

1 

0 

1 

0 

1 

9 

1 

1 

0 

0 

1 

1 

0 

0 

1 


很明显， C 3 出现与否，对结果£并不重要，所以可被排除。无论 C 3 是否出 
现， E 还是出现了。则“原初”陈述就可被简化成下面这一最简 陈述： 


E = Ci • C 2 

Ci - C 2 这一组合就是 f ： 的充分条件。 

基于两对产生相同结果£：的因素组合，最小化逻辑隐含了很强的实验性， 
即只有一个因素是变动的(在一组合中出现，而在另一个组合中不出现）。 

根据差异最小设计框架下的求异法，当其他因素都不变时，若唯一变动因 
素的变动并未导致结果变动，那么就可把它从因果性因素中排除。 
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第二个用于简化因果陈述的工具是蕴含式，或称“主蕴含”。主蕴含是最小 
化的陈述，且涵盖一个以上的原初陈述。在上例中，最小化的主要蕴含式 (Cl • 
c 2 ) 同时涵盖了 (q • c 2 • c 3 )fq(Ci • c 2 •〜 c 3 )。 它被认为是蕴含的,涵盖或 
包括后两者。原初陈述是主要陈述的一个子集 。 （Q • c 2 • c 3 ) 和 （0 • 
C 2 - 〜 C 3 ) 都是 (Ci • C 2 ) 的子集 .（Q • C 2 • C 3 ) 和 （Ci . c 2 • 〜 c 3 ) 都被包括 
在 ( C ! • C 2 ) 中。 

在部分案例中，有几个主蕴含式包括了同一个原初陈述。主要陈述自身是 
随机的，并且是最小化的陈述，可被进一步简化。这带来了最大的简约性，这当 
中只有最主要的蕴含式出现在因果陈述中。 

以£出现的4个个案为例，我们希望确定3个潜在因果条件是不是充分 
和/或必要条件。在下表中，有4对 G 的备择组合(且)产生了相同结果£：，并且 
通过分离符(或)联结的都是 E 必要条件的备择假设。 


个案 

C, 

c 2 

c 3 

E 

1 

1 

0 

1 

1 

2 


1 


1 

3 

1 

1 


1 

4 

1 

1 

1 

1 


此表的原初陈述如下，即每一项都对应上表的一行(一个个 案）: 


E=(Cl • 〜 C2 . C3 ) + (~Ci • C2 • 〜 C3) + (Cl • C2 • 〜 C 3 ) + (Cl • C2 •(’ 3 ) 


根据上文讨论的最小化 原则: 


个案 

1 

4 

(Ci • 〜 C 2 • C 3 ) 

(Q - C 2 -C 3 ) 

最小化为 

(C, •(') 

个案 

2 

3 

(〜 Ci • c 2 • 〜 c 3 ) 
(C, - c 2 - 〜 c 3 ) 

最小化为 

c 2 • 〜(、 

个案 

3 

4 

(Ci • C 2 • 〜 c 3 ) 

(C, - C 2 -C 3 ) 

最小化为 

(Q - C： 2 ) 


因此，最小化陈述 就是: 
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£ = (Ci • C 3 ) + (C 2 -~C3) + (Ci • C 2 ) 
这 3 个主要蕴含式包括了以下这些原初 陈述： 


(C» 

• Cs ) 

包含了 

(C, • 〜 C 2 -G) 

(Ci • c 2 • c 3 ) 

( C 2 - 

〜 c 3 ) 

包含了 

(〜 Ci • C2 • 〜 c :i ) 

(C, - C 2 • 〜 C 3 ) 

(C, 

• c 2 ) 

包含了 

(C, - C 2 . 〜 c 3 )( 已被 [c 2 • 〜 c 3 ] 蕴含 ) 
(C, - c 2 •c 3 )( 已被 [c, _c 3 ] 蕴含 ) 


因此 ，（G • C 2 ) 就是冗余的主要蕴含式，可以被 排除： 

E = (Ci • C 3 ) + ( C 2 •〜 C 3 ) 

这意味着， £是 由乘法 (Q *03) 或乘法 ( C 2 •〜 C 3 ) 导致的。两组都是£:的充 
分非必要条件(每一组都可由其他组合取代）。 

第三种简化因果陈述的工具就是因子分解。更精确地说，因子分解可以帮 
助我们廓清数据的结构，而非简化它。 

首先，因子分解有助于强调必要条件。在下面的因果陈 述中： 

E = (Ci • C 3 ) + ( C 2 - Cs ) 


C 3 是必要条件(但不是充分条件，见个案6)，而 Q 和 C 2 既非必要(个案7 
和个案 8) 又非充分条件(个案4和个案5)，如下表所示。相反，两对备择组合 
Cl . C 3 和 C 2 • C 3 都是£：的充分条件。 


个案 

Q 

c 2 

Cs 

c"c 3 

c 2 -c 3 

E 


1 

1 

1 

1 

1 

1 

1 


2 

1 

1 

1 

1 

1 

1 


3 

1 

1 

1 

1 

1 

1 


4 

1 


： ：m 

a 

0 

mm 


5 


1 






6 

CH 


1 



mM 


7 


1 

1 


1 

1 


8 

1 

mm 

1 

1 


1 
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对上述因果陈述进行因子化就表明 C 3 是必要 条件： 

E = C 3 - (Ci + C 2 ) 

其次，因子化帮助我们识别因果关系上等价的充分条件。在上例中， Q 和 
C 2 是等价的，它们与 C 3 的组合产生了一个不同的组合，而这两对组合都是£： 
的充分条件。 C 3 与哪个条件联合并不重要(它是等价的），因为两种联合方式都 
产生了一个充分条件。 

超越二 分法： 模糊集合与电脑程序 

由于布尔逻辑是一种把所有取值都降格为或“真”或“假”的代数形式， 
因而它在计算机科学0/1比特系统的发展过程中起了重要作用。很自然， 
在一些领域中，基于二分变量的必要和充分条件分析发展起来，尤其在语言 
学和内容分析领域 （ Zadeh ， 1965)，另一些则在网络搜索引擎技术方面。最 
初基于二分的0/1系统的方法进化到考虑各项频数，允许它们加权信息和 
转化系统，以容纳定序的或“模糊”数据 （ Kraft , Bordogna b Pasi , 1994； 
Meadow , 1992)。 

在社会科学中，拉津以电脑程序进行布尔分析的探索性工作正是追随这一进 
展的行为。拉津与他的合作者设计的二分变量的电脑程序——定性比较方法 
( QCA ) ——正是以电子工程师在20世纪50年代发明的算法为基础的 （Drass 
Ragin , 1986、1992； McDermott , 1985)。最近，一个新的软件又问世了 ( Ragin , 
Drass &- Davey , 2003； Ragin &- Giesel , 2003) ，它把模糊集合纳人了分析 ( FS / 
QCA )。 这两种方法被广泛地应用于研究中。 

从二分变量 (0/1) 转向定序和间距(或比例)变量时，建立充分和必要条件的 
原则与规律并无变化。比较方法的目标就是以单个性质或者更典型一点，以构 
型方式(通过特定属性的组合)来发现充分和/或必要条件。这种建构无论是从 
0/1变量中得来，还是从定序变量中得来，评估它们是否为某结果发生的充分或 
必要条件的方法并未改变。 
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“国家形成”这一变量的操作化 如下： “早于1815年（1)”、“在1815年和 
1914年之间（2)”、“第一次世界大战之后（3)”。这一变量可与“工业化”这一变 
量采用相似的操作化 组合: 工业化“早于1870年（1)”、“在1870年和1914年之 
间（2)”、“第一次世界大战之后(3)”。因此，就有9种可能的组合。利用上述方 
法，我们可以检验哪种组合是高水平国家整合的必要或充分条件。这些组合可 
通过间距或者比例变量来操作化，比如，成年人口的识字率或者城市人口密度 
水平。 

最近，有一种超越二分法的方法，6卩“模糊集合法” ( Mahoney ， 2000、2003; 
Ragin , 2000)。与传统的明确集合方法不同(个案在经典分类中取值是0或 1) ， 
模糊集合允许个案处于0和1之中。比如，在一个明确分类中，一个家庭是“经 
济上安全的”或是不安全的。在一个模糊集合中，一个家庭可以在经济上“差不 
多”是安全的，即0.85,亦即部分是经济安全的，但又不完整。模糊集合归属度 
分数根据它们归属于集合的程度而确定。美国并不完全属于“民主”，但差不多 
是“民主”的(美国的民主分数是 0.80)( Ragin ， 2000： 176)。这提供了一个额外 
的方法对数据进行归类，如家族相似性和向心分类。 

“变量取向”的研究分类是从个案取值中被创造出来的(安全的社区是那种 
犯罪率低于5%的 社区； 经济上安全的家庭是那些收人在4万美元以上的家 
庭），而模糊集合“测度”则根据属于某个类别的程度来对个案赋值。这是一个 
根据某个给定属性对个案赋值的方法，而研究者对特定个案的知识在赋值过程 
中扮演着重要的角色。 

最后，利用0/1数据，通过操作符或“联结词”——“非”、“且”和“或”形成联 
合陈述同样是最重要的。在这方面，模糊集合法与传统的明确集合法存在一些 
区别 ( Ragin , 2000： 171—178)。下面将讨论条件陈述正式化过程的差异。我 
们不讨论如何给个案赋值。 


必要与充分条件 


如果 C 是结果£的必要条件，那么，对所有事件而言，只要£存在， C 也必 
然成立。如果“战争失利”对“社会革命”而言是必要的，那就不可能在没有“战争 
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失利”的情况下发生一场社会革命，即 P (〜 c | E ) = 0 o 然而，有可能“战争失 
利”发生了，但没有社会革命发生(“战争失利”并非充分条件）。因此，如果所有 
事件£： = 1，那么必须有 C = 1；有可能£ = 0,而 C = 1，那么£ = 1就是（:= 
1的一个子集。试想有15个国家，其中10个采取比例选举制 ( PR )， 而其中又有8 
个是多党制 ( MPS ),2 个是两党制 ( TPS )。 所有的 MPS 都有 PR ， 即 P (~ C | E ) = 
0,但不是所有的 PR 都导向 MPS (有2个两党制例外）。那么 ， MPS = 1 ( 因变 
量)就是 PR = 1 ( 自变量)的一个子集。 

如果离散取值0和1都可被两个极端值之间的模糊集合取值所取代（比例 
选举制的程度和党派的数量），那么这一逻辑并未改变。如果高比例制是党派 
数量多的必要条件，那么，我们必然找不到高党派数量与低比例制水平并存的 
国家，即 P (〜 C | £) = 0。另一方面，所有那些存在更多党派的国家，必然有高 
比例的代表制，即 P ( C | £) = 1。然而，也可能有很高的比例制，但只有少数党派 
的国家（因为比例制是多党派的必要非充分条件）。如前面讲的，多党派这一事 
件是高比例代表制的一个子集。 

下面的散点图描述的是 C (比例代表制）是多党派的一个必要条件(用“ •” 
表示)时的情况。当研究者发现结果的分数比原因的分数小(或相等）时，就可 
以总结说，我们展示的是一个必要条件。 

如果 C 是结果£的一个充分条件，那么，对所有 C 出现的个案而言，都必 
然出现。如果“战争失利”是“社会革命”的充分条件，那么就不会有“战争失利” 
却不出现“社会革命”的例子存在，即 P(C |~ E ) =0 o 然而，我们可能会发现有 
岀现社会革命，却不存在战争失利的国家。战争失利并非必要条件，同样的结 
果可由不同的因素引发，比如“镇压性体制”。如果所有个案 C = 1都必须有 
E = 1,但可能存在£= 1而 C = 0 的情况。因此， C =1 就是£：=1的一个子 
集。试想有15个国家，其中10个有 MPS ， 在这10个国家中，又有8个国家有 
民族多样性 （ FRAG ) ， 而有2个国家是同质民族。那么，所有 FRAG 都带来 
MPS ， 即 P(C | E ) = 1,但不是所有 MPS 都需有 FRAG (有两个例外）。 
FRAG = 1 ( 自变量)就是 MPS = 1 (因变量)的一个子集。 



用模糊取值取代离散变量，民族多样性程度高就是多党派的充分条件，因 
此，我们不会发现有民族多样性高而党派少的国家，即 P ( C | 〜 £) = 0。然而，我 
们可以发现党派多却并无民族多样性的国家（因为 FRAG 并非必要条件，可以 
被其他因素，如 PR 取代）。因此，民族多样性是多党派的一个子集。 

如果 C 是多党派的充分条件，那么，其取值在理论上的分布用符号“◊”在 
散点图中表示。当研究者发现那些结果取值大于或等于原因的取值时，就可能 
得出结论说，我们展示的是一个充分条件。 

复合陈述 

如上所述，我们的讨论局限于3个主要符号，即“非”、“且”和“或”。 

第一，“非”。在数据库中，如果存在二分变量，那么,“非”就是相反的 取值: 0 
的“非”就是1，反之亦然。在模糊集合中，“非”指1减去模糊归属度 分数： 

集合 A 中的非模糊归属度分数=1 一 [集合 A 中的模糊归属度分数] 

例如，如果英国在“比例代表制” （ PR ) 这一集合中的模糊归属度分数是 
0. 10,那么，其“非”(即在集合“非 PR 体制”中的模糊分数就是 0. 90) : 
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◊ 


◊ 



◊ 


◊ 



◊ 

參 

◊ ◊ 



◊ 


• 

0 

◊ 

◊ 


◊ 

• 



0 




0 ◊ ◊ 

◊ ◊ 

◊ 

0 

• • 


◊ ◊ 


◊ 

◊ 

• 

• 

0 0 0 





• • • 

◊ 

00 

• 


• • 

拳 參 

◊ 



• 



◊ 

0 

• 


• 

• 參 



• • 


眷 

參 參 

00 • 

• 



參參 

• 

• • 

• 



• 

參參 

• 


0.5 1.0 

C 的模糊归属度分数 




0. 10 = 1 — 0. 10 = 0. 90 
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下表在 〜 Q 栏给出了非 Ci 的分数。 

第二，“且”。在二分变量数据库中，“且”发生是指几个因素必须都成立，才 
能产生一个结果 (Q • C 2 )。 这两个因素都必须取值为1才能产生结果。在模 
糊数据库中，个案可能在 Ci 和（： 2 所代表的不同集合中具有不同程度的归属度 
分数(亦见下表）。那么，个案的模糊归属度分数在“联合集合”中的分数，取的是 
两者中最小的分数。 


个案 

PR 

Q 

FRAG 

c 2 

-Q 

且 

c 】 .c 2 

或 

Q + C 2 

英国 

0. 10 

0. 40 

0. 90 

0. 10 

0. 40 

比利时 

0. 95 

0.80 

0. 05 

0.80 

0. 95 

意大利 

0. 40 

0. 20 

0. 60 

0. 20 

0. 40 


再次考虑一个关于 MPS 原因的陈述。在二分变量数据库中，一个假设是 
说， PR 和 FRAG 的组合是产生 MPS 的充分条件，即 PR • FRAG = MPS 。 如果 
两者都出现，那么 MPS 也出现。为确定一个国家是否属于同时具有 PR 和 
FRAG 两个特征的集合(国家），我们取最小值。 

如果一个国家，比如，美国或者意大利，在下表中， PR 取值为0,民族多样性 
取值为1，那么，联合陈述 PR-FRAG = 0, 即在 PR = 0 和 FRAG =1 中取两者 
最小的值。这同样适用于模糊集合取值。假设有一个国家，如上表中的英国， 
其在 PR 模糊集合上取值是 0. 10,在 FRAG 上取值是 0. 40。在此情况下，其在 
既是比例代表制，又是民族多样性的国家集合中的分数就是 0. 10。 


小 


PR 

FRAG 

非 

且 

或 

1 


C, 

c 2 


Q -c 2 

Q+ C 2 

美 

国 

0. 00 

1.00 

1. 00 

0. 00 

1. 00 

印 

度 

0.00 

1.00 

1.00 

0. 00 

1.00 


第三，“或”。分离符是另一个用于复合陈述的常见符号。在传统的数据集 
合中，分离符是指一个或另一个因素出现，就可以产生结果 （Q + C 2 ) 0 至少有 
一个因素必须取1，才能产生结果，但不必两个同时取1。在模糊数据集合中，个 
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案可能在由 Q 和 c 2 代表的集合中具有不同程度的分数。与联合符相反，在数 
个因素的分离集合中，模糊归属度分数是取其最大的归属度分数。 

还是用上面的例子，我们假设联合陈述 PR 或多成员选区 （ MM ) 是 MPS 的 
必要条件，或是 PR ， 或是 MM ， 但不必两者同时出现 （PR + MM = MPS )。 即使 
选举程序是多数制，而非 PR ， 但选区规模较大会有同样的“比例化”效果。然 
而，如果两者都不出现，那么结果就不会发生。 

比如，英国在 19 世纪时，大部分选区是多成员的 ，即 PR 分数是 0, 而 MM 
分数为 1 ， 那么，复合陈述分数就是 1 (PR + MM) ， 即 PR = 0 和 MM= 1 两者 
中的较大值。当我们用模糊分数取代离散变量时，这同样适用。假设有一个国 
家，比如英国，其在 PR (比例选举制集合)上的模糊归属度分数是 0. 10, 在 MM 
(在多地区选区国家集合)上取值是 0. 70 。 在此情况下，英国在有 PR 或有多成 
员选区的集合中的分数就是 0. 70 。 

如前面所讨论的，通过这些操作符，我们可使用必要和充分条件来正式化 
复合因果陈述。这些技术，特别是当它们得到电脑软件的帮助时，就能作出更 
复杂的分析，远远超过此处展示的基本原则。 



第 8 章 I 评估 




为何比较.比较什么及如何比较？ 

为何进行比较？因为我们可以通过比较控制变异。首先，通过比较，我们 
可在不同个案的某些属性上发现一些差异性和相似性。不进行比较的话，诸如 
“人口密集”这类描述性的陈述就毫无意义。无论处理名义的、定序的，还是定 
距的测度，只有通过比较，类型、顺序和数量才能确立。而正是共享属性取值的 
比较，允许我们识别相似性和差异，并发现其随时间推移而发生的变化。其次， 
比较方法允许我们控制解释性陈述，并系统性地利用经验证据检验那些以“如 
果……那么……”形式出现的有关社会现象因果关系的假设。若没有比较，无 
论你使用的方法是密尔法、布尔代数，还是统计方法，都不可能对变量间的关联 
进行检验。在此意义上，个案取向方法与变量取向方法并无本质区别。 

比较什么？ 一切都是可比的，并没有什么逻辑限定什么是可比的。首先， 
比较方法适用于所有类型的研究单位（比如，地域单位、组织或者个体)。其次， 
在选择个案时，并无空间和时间的限制。只要我们不是比较个案本身，而是个 
案间共享(共同)属性，那么，所有个案都是可比的。这一点同样适用于布尔代 
数技术和统计学方法。 

如何进行比较？我们通过逻辑进行比较。第一，分类学处理允许我们定义 
能够“旅行”的概念，并使个案可比。第二，分类法允许我们把研究关注的因果 
关系从那些研究者希望控制的其他因素中分离出来。第三，逻辑方法是从密尔 
的求同法和求异法或统计学方法中发展出来的，它们提供了严谨的技术来建立 
现象间关联陈述的经验有效性。第四，逻辑连词(且、或、非）允许研究者组合不 
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同的自变量来为每个个案构建不同的因素组合与构型。第五，逻辑方法允许用 
必要和/或充分条件的术语来建立因果关联的陈述。 

比较法的优势 

比较通常被认为是一种最重要的认识世界的智力工具。几个世纪以来，逻 
辑哲学家们都把比较法放在他们认识论的中心地位。比较是所有方法的 核心: 
实验方法(通过比较试验组和控制组）、统计方法(通过比较列联表中的不同组 
别或者方差分析），以及在最近20年发展起来的小样本研究和布尔代数方法(基 
丁•密尔的求同求异并用法)。 

比较方法最明显的优势在于，它使社会科学成为可能。在统计分析中，比 
较通常与跨国差异模型联系在一起——以国家层面的属性（变量）作为控制或 
情境变量。在此意义上，比较使那些跨国的或者跨时间的（如果比较的是不同 
时点的单位），或者跨组织的(如果比较的是不同对象，比如，制度、社会关联、部 
落等等)变异有意义。用布尔代数来分析稀有现象和少数个案的技术有特别的 
优势。 

从消极的角度看，当“不利条件”使其他方法，比如实验法和统计法，难以被 
运用时，布尔技术依然可提供一个坚实且逻辑严谨的备择方法。布尔比较方法 
吋以比其他方法更好地处理那些涉及过度决定的研究问题（因为“样本太小，变 
坫太多”)以及那些涉及质性属性、二分变量和那些有较高风险且是决定性而非 
概率性的陈述。那些“不利环境”不应当被归罪于布尔方法本身。与其因其处 
理情况的不利而把布尔方法看做弱的方法，不如这 么看: 尽管布尔方法不能像 
统计系数那样提供结论所需的测度，但布尔方法的优势正在于，在其他方法都 
失败的情况 F ， 它依然可处理这些问题。 

同时，从积极的视角看，基于逻辑代数的比较方法有一些独特的优势。我 
们通常认为，比较方法的优势如下： （1) 区分充分和必要条件的能力，即一种超 
越现象间单纯关联性的因果 逻辑； （2) 处理多重因果性的 能力； （3) 模型化独立 
W 素的能力，比如属性的组合与构型。 
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不同方法的整合路径 

如果我们考虑的是根本性原则，比如，通过相关性和控制来检验逻辑关系， 
那么，不同方法之间存在着相似性。另外，我们也能发现统计方法和比较方法 
越来越多的共同点，因为它们各自处理了其他方法无法处理的问题。最近，围 
绕统计学如何处理多重因果性、组合性解释、定类变量以及比较方法如何处理 
连续数据和概率性解释，产生了一些争论。事实上，这两种方法之间的共通性 
比通常想象的要多得多。 

关于两者之间的整合，有3种主要的观点。 

组合性解释 

人们经常宣称，统计学不能包括组合性或者构型性类型的解释，列联表、双 
向方差分析以及对数线性模型分析表明，这一逻辑同样出现在统计技术中。同 
样，布尔代数等方法允许我们评估到底是哪类自变量©的取值组合导致某个结 
果（比如，一个因变量的具体取值)。多变量列联表或许是在组合性解释方面最 
接近布尔代数的统计技术。 

进言之，在多元回归分析中，交互作用等同于组合性。只有当另一个自变量 
X 2 值给定时，自变量及取值的变化对因变量 Y 才有影响。在此意义上，交互性 
因果关系确实处理了因果性的组合类型 （Jaccard Wan , 1996； Jaccard &- 
Turrisi ，2003)。 

定类变量分析 

这同样适用于定类变量分析。统计学提供了一些方法来处理名义的、定类 
的测度(甚至是二分变量）。因此，它就与布尔代数的另一个特殊性结合在一 
起。列联表是比较分析中常用的统计分析技术，因为它们允许研究者处理名义 


①原文是 dependent variable ， 根据文意，应当是自变量，故改正。-译者注 
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和定类变量。在广义的历史比较研究中，这些变量往往是主要的数据类型。 

在此，需要提到另一项技术，即虚拟变量回归 （ Hardy ， 1993)。举例来说， 
如果有一个名义自变量——5种宗教团体一在回归分析中，我们需要选择一 
种宗教作为参照组，并对其余宗教赋值 :如果 属于这一类，赋值为1;不属于这一 
类，赋值为0。因此，对于每一种宗教，都有一个虚拟变量对应。用虚拟变量方 
法进行回归的好处是，其结果总是包括自变量每一个类别的精确效果（名义变 
量的类别变成了多个虚拟变量），而方差分析和列联表方法都只能局限于自变 
量的总体效果。 

最后，对数线性分析或许是最重要的定类变量分析技术 （ Ishii - Kimtz ， 
1994； Knoke Burke , 1980)。对数线性模型的特殊例子是 logit 模型(或者是 
multinomial logistic 回归）和 porbit 模型，它们处理的都是二分变量 （Aldrich 
Nelson , 1984； DeMaris , 1992； Kant Borooah , 2001; Liao , 1994； Menard ， 
2001; Pampel , 2000)。 对数线性模型分析被认为是列联表“回归风格”的延续， 
可容纳更多变量(变量太多会使列联表不可读，且难以理解）。这一技术允许我 
们决定哪种自变量组合对因变量具有更强的效果。在此意义上，对数线性分析 
非常接近于比较方法中的构型性和组合性的本质。不仅如此，作为回归分析的 
变异，对数线性模型还分析评估每一种组合的效果。 

总结一下，如果我们一方面考虑诸如多变量列联表、双向方差分析、对数线 
性分析以及交互作用，而另一方面考虑概率性的、由布尔代数进化而来的模糊 
集合分析，那么，这两种方法(统计方法、比较方法)根本没多大差异。 


概率性关系 


布尔比较方法是不是决定性的？有些作者提出，求同法与求异法必然导致 
决定性的结果，而统计方法是概率性的 （ Goldthorpe ，1997 a 、1997 b 、 2000： 45— 
64； Lieberson , 1992、1994、1998)。在此，我们看到，差别并不如他们强调的那 
么大： 

首先，如果给定因素出现，总是导致特定结果的出现（“ X ，成立时，则有 
“ Y ”） ，那么这一因果命题就被认为是决定性的。只要有一个个案与假设的关系 
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不符，就可以推翻它。而这种与假设相反个案的存在，使我们得出，“ av ’ 对“ y ” 
没有影响。此时的关系不变，是完美关联的(相关系数是 ±1. 0)。 

其次，如果给定因素出现时，特定结果出现的可能性增加（当 “ xr 时，则 “ y ” 
出现的概率或者频数增加），那么这一因果命题就被认为是概率性的。一两个 
反例并不能拒绝因果关系假设。拒绝假设依赖于频数的分布(研究者在 “ h ! ”和 
“虚无假设”两者之间选择）。概率性命题基于不完美的因果关联性（相关系数 
在 ±1.0 之间）。 

社会科学中并不存在决定性关系。持有这种“天真概念（的人），并不会走 
得太远” ( Galtimg ， 1967： 505)。决定性命题在社会科学中特别不切实际，因为 
有以下因素存在:（1)数据本质一复杂的多变量因果模式； （2) 测量误差- 
一组数据偏离假设可能是由于测量误差，而并非关系不 成立； （3) 不可能控制所 
有变量——研究者只能尝试控制那些他们认为从理论上讲或许有作用的重要 
因素； （4) 偶然性——由于巧合导致的关系。因此，从决定性命题通过“概率性革 
命”转向非决定性命题是社会科学的一大进步 ( Kriiger，Gigerenzer Morgan . 

1987； Lieberson , 1985： 94 一 97)。 在社会研究中，研究者根据正面案例、反瓶案 
例的频数接受或拒绝假设。 

那些在小样本研究中应用密尔法的研究者，都认为密尔前两个或前三个方 
法是决定性的。对拉津来说，“(求异法)被用于建立无变异的模式，不完美的（比 
如，概率的)关系属于统计理论的领域”，并且“它们被设计来发现无变异模式和 
不变的关联” ( Ragin ， 1987： 39—40、 51) ，即不变的因果构型是必要的（而作可 
能的)组合，它导致某些结果 (Ragin Zaret ， 1983： 743—744)。 X 、 J ■斯考切波来 
说，同样，“与概率性技术的统计分析相比……比较历史分析……尝试识別不变 
的因果关系，那些必要的（而非可能的)组合导致我们感兴趣的结東” ( Skorpd . 
1984 a ： 378)。 

然而，布尔逻辑只适用于变量间决定性关系的想法并不恰当„嚷实 I '.,这 
并非其内在逻辑。逻辑方法不能独一无二地与决定性命题联系在-起。作频 
数分布中，某因素被接受为充分或必要条件，并非因为没有个案4假设冲突.而 
是因为这些反例很少。比较研究可基于频数分布，在其中，接受或扪绝必要或 





基于布尔代数的比较法导论 


充分条件并非依靠条件在所有事件中的出现/不出现，而是它们在进行比较的 
众多个案中出现/不出现的多少。如果建立的置信水平是《(即我们认为可接受 
虚无假设的个案数量），那么，当正面案例数量时，我们接受虚无 假设； 当正 
面案例数量时，我们拒绝虚无假设(接受备择假设）。 

接受或者拒绝一个原因是否成立的水平 (《) 是武断地设定的，临界点完全 
在研究者的掌握之中。利用统计方法，研究者武断地决定自变量和因变量的关 
系是“强”还是“弱”(举例来说，在社会科学中，皮尔逊相关系数 r = 0. 30通常被 
认为是强相关)。临界点很明显受到个案数量的影响。戈德索普 ( Goldthorpe ) 
和利伯森 ( Lieberson ) 正确地提出，有些方法之所以是决定性的，并非因为求同 
法、求异法的逻辑本身如此，而是因为个案数量(小样本问题）。总的来说， N 的 
数目越小，一个反例就越可能导致假设被拒绝。若总共有两个个案，那么，一个 
反例就导致完全的不确定性(50%);而10个个案中只有一个反例就“好多了”。 
利普哈特反对“给予反面发现以过分重要性的谬误”，但他同样认识到，“在小样 
本个案的比较分析中，一个偏离个案就会显得很突出” （ Lijphart ， 1971： 
686 ) 。[ 23 ] 

在此过程中，偏离个案扮演了重要的角色。它们弱化了假设，但并未使假 
设变得无效。偏离个案分析是利普哈特辨别出来的6种个案分析方法之一 
( Lijphart , 1971： 691—693)。个案研究作为方法,其地位模糊是因为它不是一 
个概待性的行为。对许多人而言，个案研究分析不是一种方法。[ 24 ]尽管如此， 
偏离个案分析仍可用于揭示为何个案是偏离的，并指出原先设计中未考虑到的 
额外变量。如果这么运用，则个案研究便具有理论上的价值。偏离个案弱化了 
原先的假设，但研究它们可以帮助修改并增强原先的命题。 



第 9 章 I 结论 


比较研究方法是社会科学依然在寻找“通用语言”的时期发展起来的。即 
理论的和操作的概念，可不受本质的、时间的或空间的限制而被运用。这一过 
程与客观的“/ V ”的扩展同时发生，这种扩展由于后殖民地区的民主化进程、研究 
者主观兴趣的增加以及新兴国家数据被大量收集而产生。这一步暗示着“用变 
量来取代合适的名字 ” (Przeworski Teune , 1970) 定义那些能够“旅行”的概 
念 ( Sartori ，1970) ，并将“普遍集合”应用于所有社会系统 ( Almond ， 1966; Lass - 
well , 1968)。另外，因个案数量过少而研究问题过多，这也涉及对变量的简洁 
运用，并导致了“强烈反对……‘构型的’或‘情境的’分析” （ Lijphart ， 1971： 
690) ，因其不能生成一般化的陈述。 

社会科学中关于比较方法的早期著作强烈反对“构型的”或“组合的”分析， 
其中列出了一大堆潜在解释变量 （ Braibanti ， 1968： 49； Przeworski &- Teune , 
1970)。这与当今发展复杂的、构型性、组合性方法的趋势相悖。30年后，社会 
科学方法的争论，很大一部分关注另一个方向的“反应”，即从“变量取向”方法 
回摆到“个案取向”和整体方法，后者可在更“深人”的中层情境下对属性进行分 
析。正如戈德索普指出的，这代表了整体主义的复活，这与普沃斯基和特恩提 
出的强调用变量取代“特定名字”的工作背道而驰 （Przeworski & Teune , 
1970) 。另外，如果有研究者关注“整个”个案，那么，他依然指向个案一系列的特 
性或者属性。只有当我们比较个案取值或共享属性时，比较才可能进行，即比 
较的是变量 ( Bartolini ， 1993： 137； Goldthorpe , 2000)。用“变量”这一术语进 
行思考而不再限定于“变量取向”的方法中，成为变量和个案取向方法的共同 
特点。 
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读者应当认识到，社会科学中这一争论不是最近才发生，而是20世纪60年 
代以来，“比较方法”在社会科学各分支领域得到迅速发展后一直存在的，尤其 
是在人类学、社会学和政治学 （ 比较政治学)领域。因此，读者现在应当清楚，尽 
管有时这些争论很激烈，但两种方法之间存在着逻辑本质和方法论的共同性， 
即大样本设计和统计方法、小样本设计和布尔逻辑方法。 

本书试图强调这些共 同点。 两个方法最终都是变量取向的(尽管有些个案 
分析是“深”的，而不属于变量取向），都可处理构型性和组合性的因果性，同时 
还能处理叠加性的因果 关系; 两种方法都建立不同类型的变量模型——离散的 
和连续的以及定类的、定序的和定 距的； 两种方法都尝试建立概率性的而非决 
定性的因果性评估。每种方法都有其独特的优势和弱点，但其共同点或比差异 
更多。或许对不同方法进行更系统和深入的比较，会揭示更多更根本的潜在共 
同性。 

本书的目的是展示，在所有控制变异的社会科学方法中，存在许多比较原 
则——实验法、统计变量取向的方法以及小样本个案取向的比较方法一从而 
作出了超越不同方法的科学尝试。因此，比较被认为是一个所有方法共有本质 
的根本逻辑原则，它使我们可以积累研究成果，收集、编码数据，并得出更一般 
化的结果。 
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注释 


[1] “定性的”这一术语在这里指的是离散的、二分的、定类的或者定序的测量层级。这一术语并不指 
代质性方法，比如，民族志、访谈分析、日记的内容分析、生活史、话语或基于影像与档案的研究方 
法、情境分析、参与观察以及自我观察。在此意义上(定性特指二分、定类变量的测量），我们才可 
认为，“定性比较方法”的内在逻辑事实上与定量逻辑一致，即它是一种基于控制变异来检验自变 
量和因变量之间因果关系的实证方法。 

[2] (实验)操控同时关注实验变量(可操纵变量或内部变量，即研究者希望检验其作用的变量）与控 
制变量(外部变量）。研究者控制控制变量，是为了把它们的影响排除掉。 

[3] 求同求异并用法亦被称为“间接差异法”。本书使用“求同求异并用法”，与密尔的用法保持一致。 

[4] 比较法并非如其宣称的，是唯一基于逻辑的方法，因此，不可能维持比较法“基于逻辑方法”的独 
特地位 (Ragim 1987： 15)。统计法同样基于逻辑准则。 

[5] 密尔提出，“共存本身必须被求异法证明” (Mill， 1875： 465)。 

[6] 研究者希望通过控制某些因素来排除其对实验性自变量和因变量关系产生的影响。当然，研究 
者基于既有知识、洞见和运气来决定哪些因素相关，从而应该被控制。 

[7] 在这一时期，有大量关于比较法的著作是从人类学领域引进的 （ Eggan ， 1954； Radcliffe - Brown , 
1951、1958； Sjoberg , 1955)。 

[8] 参见 Andersen (2007 )、Berry &- Feldman (1985 ) 、 Bray & Maxwell (1985)、 Breen (1996)、 Dunte - 
man Ho (2005)、 Fox (2000 a 、2000 b ) 和 Lewis - Beck (1980、1995) 的研究。 

[9] 当我们谈及个案的数量而非它们的大小时，有些学者偏向于谈论“少数样本”而非“小样本”。博 
伦、恩特威斯尔和奥尔德森在 QCA 和其他软件开发之前就已经表明这点，大部分比较研究都是 
基于少数个案的 （ Bollen , Entwisle & Alderson , 1983： 327—328)。 

[10] 跨系统扩散不应与下面这些混淆：（1)渐进主义或者某既定变量的变动，依赖于同一个变量先前 
的变动； （2) 全球力量(全球性条件随时间的变化而影响所有个案）。 

[ 11 ] Df =( iV - V 0 — l ， Df 是自由度， N 代表个案数置，而 V 是自变量(解释变量)数量。所以，当有两 
个个案、一个自变量时 ， Df = 0,就是任何基于这种分析的因果关系都是无效的 （ Campbell , 
1975)。 

[12] 金、基奥恩和韦尔巴也建议增加观察值的数量 （King，Keohane Verba, 1994)。如上所述，这 

并非屡试不爽。 

[13] 相比“概念”，我们更倾向于使用“类别”这一术语。因为它直接指向分类问题，指向一个概念的边 
界 （Collier & Mahon ， 1993： 853 )。 

[14] 等价问题引来怀疑论的建构主义者的极端批评。他们质疑，是否可能存在能形成“跨文化、规律 
似的因果概括”的比较政治科学 ( MacIntyre ， 1972: 9)。这一批评基于密尔给出的警告，即在社 
会世界中去假定相似性要小心，因为很多时候相似性是表面的、具有误导性的。有学者举了这些 
例子，比如，阿尔蒙德和韦尔巴指出，“自尊心”概念在英国和意大利具有不同的含义，“政治党派” 
在非洲和西方世界也指向不同类型的组织形式 (Almond & Verba , 1963)。 

[15] 除了这些基本规则，分类法还必须具有一定的稳定性，即它们不能总是频繁变动，尤其是在使用 
纵贯数 据时; 分类还必须是平衡的，不能在某一类中有太多个案，且每一类别包含的个案数量应 
当均衡。 

[16] 这些备择的分类方法基于集合理论。第三种针对经典分类问题的备择方法同样基于集合理论， 
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即“模糊集合”，这些一定程度上都基于并正式化了其他的模糊分类方法。这一问题会在下文进 
一步讨论。 

[17] 如戴穆尔和伯格-施洛瑟指出的，差异最小设计方法关注相似个案之间自变量的属性（而因变量 
的取值是不同的 MDeMcur & Berg - Schlosser , 1994)。正因如此，他们讨论了异果差异最小设计 
( MS ~ DO )。 参见下文的讨论。 

[18] 这里使用 C 和£而不是/>和9来取代经验属性或性质的简单陈述。 

[19] 这一否定式或消除性的确认方法，在剩余法(第四原则)那里表达得更为清楚，表达如 下：“ 从一现 
象中减去那些在先前归纳中已知是某些前件之结果的部分，那么，现象剩下的部分就是剩余前件 
的结果。” ( Mill ， 1875： 460) 这很明显是排除法，适用于所有的方法。然而，根据涂尔干的观点， 
这一方法在社会科学中并无特别的作用，因为社会现象过于复杂，不可能排除一个原因之外的所 
有其他因素。 

[20] 包含性分离式指的是，“无论何时”，只需有任何一个为“真”，那么联合陈述就为真(灯不亮，是因 
为“要么开关关着，要么灯泡烧掉了”)。而一个排除性分离式是“要么……要么”，但两者不能同 
时出现，这可以表示为 ( Q + C 2 ) •〜 (Q - C 2 )o 

[21] 否定式真值表 如下： 


C 

〜 C 

1 

0 

0 

1 


[22] 软件和手册可以在网上下载。其他软件程序，如 TOSMANA (小样本分析工具），由 Lasse Cron - 
qvist 开发，见 www . tosmana . org 0 

[23] 正因为这样，许多作者偏向于使用确证而非证明，用弱化而非证伪或拒绝。 

[24] “个案研究在解释方面没有用处……比如，我们不能用美国家庭的研究得岀结论说，工业化导致 
大童孤立的核心家庭。城市化、边疆地区或者清教徒传统，同样可以导致这种结果。” （ Zelditch ， 
1971： 288—289) 
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对人类来说,集合概念的得来相当容易。人们可能发现，集合的逻辑最早来自亚里 
士多德，他在他经典的《逻辑学》里认为，人与牛都是“动物”，并且把动物分为有足的、双 
足的、有翅的与水生的几种不同类别。直到1874年,这种逻辑观念才得到精确的数学表 
述。乔治 • 肯特尔 (Georg Canter ), 这位双亲来自俄罗斯的丹麦学者，发表了一篇有数学 
公式与严谨的集合概念的论文，标志了集合理论作为一个数学分支的诞生。 

集合理论,或本书中称为“经典集合论”的学说，长期以来支配着数学教学,现在仍然 
是高中数学教材里的重要组成部分。根据这个理论，成分函数，或以来表示任何属 
于 X 集合的数据,只有两种数值，即0或1,而且其函数图形可以表示为 mx : X -|0, 1| 0 
然而,这个对现实的简化被罗飞.查迪 (Lotfi Zadeh ) 于1965年所发表那篇关于模糊集合 
的革命性论文永远改写了。模糊集合的函数图形可以定义为 m x: X —[0, 1], 这允许数 
值出现在整个单位区间内。尽管模糊集合的逻辑基础可以追溯到柏拉图,但是直到查迪 
论文的出现，才奠定了这类理论研究的基础，该理论随后被应用在计算机科学、工程科学 
与其他基础科学，包括社会科学之中。时至今曰，模糊逻辑的运用已经涉及如何推动子 
弹列车、洗衣机与摄影机的运行等各方面。 

模糊集合理论对社会科学有何贡献呢？在社会科学研究里,模糊性是稀松平常的事 
情，模糊集合理论为我们提供了一种适当的方式去系统性、建设性地处理模糊性。史密 
生与弗桂能的模糊集合理论是该领域的及时雨。本书提供了模糊集合理论的介绍，它超 
越了我们熟悉的清晰二分逻辑领域，是带领读者前往应许之地的一趟智识之旅。 


廖福挺 



第 1 章 I 导论 


社会科学研究者长期以来观察到，尽管人类习惯于把他们的世界分成几个 
领域或类型，但他们却常使用一些边界模糊或是成分渐变的分类。社会科学界 
所使用的概念也常常如此。本书介绍模糊集合理论，它是罗飞 • 查迪对经典集 
合理论的延伸，为处理允许部分成员归属（有时译为元素)或归属程度不一的分 
类方式，提供了一个数学框架。 

在最初允许样本部分地属于一个集合的直觉显现之后，模糊集合理论提出 
了并集与交集等集合概念的一般化理论。因此，这个理论把分类概念带到了向 
量的领域。如果经济贫困与心理忧郁的程度被认为是重要的，那么模糊集合理 
论认为，我们讨论穷人与忧郁人群交集的程度有多高之类的议题仍有意义。我 
们把模糊集合理论加人社会科学的工具箱有5大 理由： 

第一，该理论能够系统化地处理模糊性。 

第二，社会科学的许多创见同时具备分类与向量的性质，即便是分类 
概念，也有重大的程度之分。 

第三，该理论可以超越条件分析的工具与一般线性模型，用集合理论 
的一般化操作来分析多变量关系。 

第四，它有理论上的精确性，大部分理论常常使用逻辑或集合导向的 
词汇来表达，但多数以连续变量为主的统计模型则不是。 

第五，模糊集合理论以精确的方式结合了集合导向的思路与连续 


变量。 




模糊集合理论在社会科学中的应用 


在过去的 40 年间，模糊集合理论被引介以来，已经累积了许多合适的应用 
经验，这种情況建议我们适时出版一本介绍模糊集合的书籍。举例来说，在心 
理学界，出现了以模糊集合为基础的认知理论（例如， Oden Massaro, 1978) 
或记忆理论 （ Massaro，Weldon &- Kitzis, 1991) ， 模糊集合被用来解决测量问 
题，并且提供了新颖的分析工具 （ Hesketh, Pryor, Gleitzman Hesketh, 
1988; Parasuraman, Masalonis Hancock, 2000 ； Smithson, 1987 ； Wallsten, 
Budescu, Rappoport, Zwick Forsyth, 1986 ； Zwick, Budescu Wallsten, 
1988 ； Smithson &- Oden, 1999 )。 此外，在社会学界与政治学界，拉津呼吁引进 
模糊集合来处理他所谓“多样性导向”的研究，并且强化理论与数据分析的关联 
性 (Ragin, 2000 )。 

因此，本书旨在引导社会科学研究者熟悉模糊集合与方法工具以便运用 
它。第2章介绍模糊集合理论的基本概念，包括成员归属等级、集合的理论运 
算、模糊数值与模糊变量。第 3 章着重在模糊集合与调查方法里赋予成员归属 
等级以建立归属函数。第 4 章探讨模糊集合的单变量性质——也就是集合的量 
与势一所拥有的概率分布及模糊性。第 5 章发展了集合之间(交集、并集与相 
容)的双变量关系。最后，第6章引进多集合关系与概念，包括组合集合指针、条 
件元素函数以及多重与部分交集与兼容。纵贯全书，我们从不同的社会科学学 
科里找出范例，并且尽量建立起模糊集合取向与传统数据分析技巧之间的关 
联性。 

与其他模糊集合理论的教科书不同，本书强调将模糊集合的概念与相当直 
接的统计技巧(尤其是许多已经用在标准化统计软件中的技巧)结合起来。我 
们相信，这种结合是必要的。当模糊集合理论被引人社会科学后，多数研究者 
常常仅仅运用模糊集合引人成员归属等级与重合分类的想法，某些明显是归属 
等级的运用也许混合了原型与类似原型的测量，少数运用模糊交集与并集、模 
糊逻辑或其他模糊推论方法。本书把模糊集合理论作为主要的核心议题，并且 
为那些希望驾驭模糊集合概念，以作出统计推论并检验他们模型的研究者，提 
供明确的指引。 

有关模糊集合的某些观点并不包括在这本书里，不是因为我们认为那些方 
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向不重要，而是因为讨论它们会使本书的篇幅加倍。反之，我们将集中讨论那 
些对广大社会科学圈内的、曾听说过模糊集合理论但是不了解它的读者们而 
言，最有趣也最容易理解的观点。然而，我们在此列举一些没包括在本书之内， 
但是仍然与社会科学家们有关的两个领域里的研究文献。模糊逻辑是模糊集 
合理论的直接延伸，并且包含在许多模糊推论与控制系统的运用中，范围从简 
单静态数据结构到复杂动态的系统分析。贝多西 （ BSrdossy ) 与杜克斯坦 
( Duckstein ) 讨论了区域规划所使用的数据系统。塞斯 ( Sekz ) 与他的同事们使 
用动态推论系统来模拟外交决策与组织行为 （ Seitz , 1994； Seitz , Hulin &- 
Hanisch , 2001)。 泰伯对部分使用模糊理性的计算模型提供了基本简介 
( Taber , 1992)。模糊数据的简化技巧最初由模块认知的研究引进并加以发展， 
这一类研究很多都属于模糊群聚方法 ( Smithson , 1987； Steenkamp &- Wedel , 
1991)。另一个研究取向的例子属于潜在阶级分析的“成员归属”延伸 ( Manton , 
Woodbury &- Tolley , 1994) ，在潜在阶级分类里允许部分成员归属的存在，有个 
叫 DSIGoM 的统计软件运用该技术并发行商业版 （Decision Systems Inc . , 
1998), 如今， GoM 模型在健康研究与人口学领_已被大量运用。此外，还有研 
究者用多层次模型来扩展模糊集合，以便在家庭组成变迁的过程中估计家庭数 
据结构 （ Goldstein , Rasbash , Browne , Woodhouse &- Poulain , 2000)。 



第 2 章 I 模糊集合数学的总纲 


在这一章中，我们将提供一个模糊集合数学的非技术性导论，我们不着重 
数学推算的细节而尽可能注重概念的澄清。在工程学的教科书里可找到不少 
有用的技术性导论，其中，最详尽的是齐默尔曼 ( Zimmerman , 1993) 、克立尔与 
原 (Klir &• Yuan , 1995) 的著作，对本章提及的主题细节有兴趣的读者可以自行 
参考。模糊集合理论是集合理论的概推，虽然集合理论是现代数学的基础，而 
且对博弈论与概率论熟悉的读者应该都已经有所了解，但我们也不能假设每个 
读者都懂，因此，我们将从集合理论的简单回顾与运算开始介绍，然后把模糊集 
合当成标准“清晰”的集合理论的特殊延伸。虽然“模糊”一词经常有负面的意 
思，但模糊集合数学其实是很精确的，它能使我们更妥善地估计那些呈现出某 
种程度不确定性与模糊性的现象。 

集合理论 

本书希望合理地介绍集合理论。对概率论、实数分析、几何理论、数理统计 
与线性代数的介绍都得包括集合理论。经典集合理论是处理事物之加总以及 
这些事物彼此关系的一种数学运算，其中最基本的是集合的概念，它是一组事 
物的清单，例如 ， A = { a ， b ， c ， d ， e } 或者 B = { 橘子，柠檬，酸橙，葡萄柚，红 
柑}。集合的有趣之处在于，其与一组决定相关元素或非相关元素的规则有关。 
例如，集合 A 可以被视为以“前五个字母”为规则的成员，集合 B 可以被视为“常 
见的柑橘属水果”这个规则下的成员，当然“常见”一词也可以被赋予更精确的 
定义。显然，当以集合来给经验现实建模或是测算现实数据时，界定事物的规 
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则是最首要的应该被厘清的问题。在金桔与柑橘大丰收但是没出产酸橙与葡 
萄柚的地方，“常见的柑橘属水果”就难以定义集合 

集合有4种最基本的运算方式 :并集 、交集、余集(补集)与包含，通常是依序 
用下列符号表示： u 、 n 、〜与 c =( 虽然有少数作者有时使用不同的符号）。用这 
些运算方式就可以组成相当复杂的集合。 

并集与交集依据特定运算程序，从两个(或以上）的集合中创造新的集合， 
是重要的关系公式。并集把两个集合接合在一起，在包含的意义上可读为 
“或”，一般来讲就是“且/或”。用前面说到的两个集合来表示 ， A U B = { a ， 
b , c , d , e , 橘子，柠檬，酸橙，葡萄柚，红柑}。交集是两个集合重叠之处，可以 
简单读成“且”。前面这两个集合因为没有相同的元素，因此其交集是空的， 
我们可以将之写成 A f ] B = 0 , 后面这符号是无或者空集合，集合内什么也 
没有。 

余集，或者读做“非”，也称做“补集”，是在全集所有元素里不属于原集合的 
部分，其定义取决于我们如何界定集合外的全部事物，这就是全集 U 。 如果没有 
U ， 我们不可能找到有意义的补集，也就不可能对集合提出任何有实质意义的命 
题。假设对前面定义的集合 A 来说 ， U = { 所有英语字母}，则 〜 A = 
{ f ， g ， …， z }。 此时，应注意到 A U〜A = U ， 用文字表示就是，“所有的 A 与所 
有的非 A 加起来就是全部的事物”。此外， A 门 〜 A = 0，即同时包括 A 与非 
A 的集合是空集，这个命题又叫做“中间排除律”，对于理解模糊集合理论有重 
要意义，因为模糊交集并不遵守中间排除律。 

包含关注的是一个集合是否与另一集合的元素重合。若集合 Q 包括集合 
P ， 则集合 P 内的所有元素皆在集合 Q 内，以集合 A 与集合 B 来说，则显然没有 
任何互相包含的元素。然而，给定 T = { a , b , c ， …， j }， A 匚了可以读成 “ A 被 
T 所包含”或者 “ T 包含 A ”。 如我们到第5章将会看到的，包含的不对称性特别 
有利于解释那些经验个案中的关系，其中，许多都与社会科学家常用的相关系 
数不同。包含与交集有特殊的关系，当 PCZQ 时，则 P H Q = P 。 当 PCQ 且 
QCIP 时 ， P = Q 。 表 2. 1显示了集合理论的运算规律。 
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表 2.1 最重要的集合理论运算规律 


运算 

符号 

标记法 

语言翻译 

并集 

U 

AUB 

A 或 B 或 A 且 B 的所有元素 

交集 

门 

A 门 B 

A 且 B 的元素 

补集 

〜 

〜 A 

全集里不属于 A 的元素 

包含 

匚 

A 匚 B 

B 包含 A 的所有元素 


为何要研究模糊集合？ 

假定集合 { a ， e ， i ， o , u } 是元音的集合，逻辑上说 ， C = ~ V , 也就是 
辅音的集合，因为字母不属于元音就属于辅音。然而我们知道，字母 y 有时是 
元音有时又是辅音，例如在 “ my ” 这个词里 y 就是元音，但是在 “ yours ” 这个词 
里却不是。 y 究竟属于集合 V 还是辅音集合 C ? 由于 y 并不是非 V 即 C ：， 而是 
同时属于两者，所以答案不清楚。当然，这表示区分元音与辅音的规则并不 
造成互斥的两种字母分类，当我们定义 C = 〜 V 时，字母 y 已经违反了中间排 
除律。 

虽然这个例子连小孩也很熟悉，但是遇上日常的数据库建构与其中事物关 
系的推论过程时，我们就很难想清楚更复杂的问题。经典集合理论常常难以处 
理集合元素分类规则的不确定性。数学元素总可以被定义清楚，经验数据却非 
如此。 

模糊集合正是被设计来处理这种特殊类型的不确定性。我们常称其为“程 
度一模糊性”，这种状况来自事物具有某种程度不一的特质。模糊性最容易岀 
现在一个经典悖论中，即我们接下来介绍的连锁推论。假定有一卡车的沙，当 
然那是一堆沙，如果我们从中挑出一粒沙，仍然会剩下一整堆，根据这种暗藏谬 
误的数学归纳法，我们即使移走所有的沙粒，还是会留下一整堆沙，以此类推。 
然而，事实上，我们拿走越多剩下就越少，就不会有人说剩下那一点点沙还是一 
堆。因此，问题出在“一堆”的定义不明确。这就是模糊性的主题，是一堆或不 
是一堆，两者之间没有清晰的、可供区分的临界点。 
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社会科学里的许多概念都包含这种本质上的模糊性，当我们界定一些典型 
案例以符合概念的定义时，在不同集合之间无法指出清晰的界线。比如贫穷， 
在一个固定社会脉络里，如“美国中西部大学城里的单身人士”，我们可以相对 
容易地确定贫穷线为“2003年全年所得在2万美元以下”。经典集合论告诉我 
们，一个中西部人如果每年赚了超过2万美元，就非穷人，即使大家都认为收人 
再多加一块也不会造成那个人生活上的任何物质影响。然而，每年收人再加上 
1万美元可能就会使其脱离贫穷，换句话说，在年收人2万美元与3万美元之间 
可以消除贫困，但确切的数字又是多少？模糊集合理论为我们提供了一个精确 
的数学工具，不是去规定一个清晰的临界点，而是在绝对贫困与绝对脱贫的数 
字界线之间，界定成员归属的不同等级。 


归属函数 

模糊集合的基础来自经典集合，但是增加了一项元素 :集合 成员某种特质 
的可数成分，范围从0到1。正式地说，归属函数 ; n A 是一个将某些样本空间投 
影在单位区间[0, 1] 之间的函数，这种投影可以表 示为： 

ota(x) [0 ， 1] 

这就产生了模糊集合 A 。 谨记，该向量可能指涉一个全集，但也可以被定义为一 
个数学区域，例如，一条实线或者代表某种程度范围的区间。 

归属函数是一个“集群”的指数，用来测量某事物 x 作为一个特定集合成 
员归属的等级。与概率论不同，所有归属等级加起来不用等于1，因此，集合 
里很多或者少数事物可能拥有很高的归属值。然而，集合里所有事物的归属 
值与其补集加起来仍然必须等于1。经典集合论与模糊集合论的差异在于， 
后者可以接受部分的归属等级。经典或清晰集合事实上是将模糊集合的归属 
值限制在{0, 1}，也就是单位区间的两端。模糊集合理论用归属函数赋予每 
个事物某个比重的数值来模拟模糊现象，并且测量“这个事物属于集合 A ” 属 
实的程度。 
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表 2. 2常见的柑橘属水果 


水果 

水果 

跻橙 

1.00 

红柑 

0. 50 

柠檬 

1.00 

金桔 

0. 00 

葡萄抽 

0. 75 

柑橘 

0. 25 

酸橙 

0. 75 




我们用两个简单的例子来说明一些重点。首先，我们主观建构一个“常见 
的柑橘属水果”的元素价值，从 {0, 0.25, 0.50, 0.75, 1} 中选取一个数。我们 
赋予的数值展现在表 2. 2中。元素或成员比例的赋予是需要审慎思考的艰难工 
作，我们会在第 3 章详细讨论这个问题，然而，这个程序与许多社会科学家在未 
考虑模糊集合理论的情况下对事物进行的记录与分类工作其实没有什么不同。 

一种有用的对成员清单一般化的记录方式，是将标准集合配对记载 下来: 
{( 胳橙， 1),( 柠檬，1)，（葡萄柚， 0. 75)，（酸橙， 0. 75) ，（红柑， 0. 5),( 金拮，0)，（相 
橘， 0. 25)}。对相对小规模的集合来说，这种等级配对清单的记录方法很完整而 
且很有用。 

第二个案例展现以数学区域处理成员归属时的规则。通常，这种成员界定 
是以量化方式来定义的区域。以前面贫穷的例子来说，我们可以用年收人的线 
性过滤法。根据前文的定义，年收入超越 3 万美元的成员，其穷人的定义为 0 
(非穷人），从 3 万美元到 2 万美元是线性递增的比例，而 2 万美元以下的定义就 
是 1( 穷人)。 


' 0 Cr> 30000) 

p 哪 ⑴ = 3o 3 ooo°-moo ( 麵 < 工 < 30000) 

1 (0<x< 20000) 

这看起来很容易。然而，在建构模糊集合(或任何集合）的过程中，我们马 
上会遇到一个两难问题，那就是全集 U 的定义。敏锐的读者或许已经察觉， 
前面的水果集合已经包括两个不同的性质，“常见的”与“柑橘属水果”（这当 
然是故意的）。这样怎么界定全集呢？这是柑橘属里的一个特定种类，是一 
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般的水果，或是杂货店里买得到的，还是什么别的？对不同的全集来说，成员 
归属数值将会有不同的意义。在^/= { 柑橘属水果}的例子里，金桔的数值0 
代表这种水果很少见，即使它确实是柑橘属的水果。然而，假若 c /= { 一般的 
水果}，则大部分非柑橘类的水果都会被赋予0的数值。苹果当然很常见，但 
不是柑橘属水果，因此完全不属于 A 集合成员。就连这种看起来有点可笑的集 
合，事实上都是很复杂的。我们在此应提醒读者，当建构一个总体时，清晰是最 
重要的特质。 

模糊集合理论的运算 

与经典集合理论类似，模糊集合理论包括并集、交集、补集与包含等基本运 
算，但它也包括非经典的运算方式，例如，修正值的集中与扩散以及相连的模糊 
加总。在这一节中，所有的计算公式都是依据只有两个集合的假设所设计的， 
但是根据数学归纳法，这些公式可以轻易推导到3个以上集合的运算。为了呈 
现模糊运算的方式，我们扩展了水果的例子。我们在水果全集里建构了 4个模 
糊集合，这不是一份完整的水果清单。“常见的”代表对美国超级市场上可获得 
水果的一种主观评判。“柑橘属”或“蔷薇科”表示该水果属于植物学上的某一 
类。最后，“酸的”代表主观认定酸的程度。柑橘属与蔷薇科是清晰集合，因此， 
其所有成员的数值非0即 1( 见表 2. 3)。 

模糊并集里的成员定义是集合里最大程度的成员归属。并集 X U Y 的成 
员归属可以写成： 


mx\jY — max(mx , my ) 

因此，脐橙的成员归属在并集“常见的 U 柑橘属”里的值就是 maxCl . OO , 
1.00) =1.00,而其数值在并集“蔷薇科 U 酸的”则是 max (0. 00, 0.25) = 0.25。 
模糊交集里的成员归属则是集合里最小程度的成员归属，也 就是： 


mxr\Y = minC/wx » wy) 

因此，脐橙的成员归属在“常见的 fl 酸的”的水果中就是 min ( l . 00, 0.25) = 
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0. 25。模糊补集定义为1 — rnx ， 因此，脐橙在非酸性的集合里的成员归 
属为 1 一 0. 25 = 0. 75。 


表 2. 3 两种延伸集合里的成员归属（以水果为例) 


水 

果 

常见的 

柑橘属 

蔷薇科 

酸的柑橘属 U 蔷薇科 

常见的 n 酸的 

脐 

橙 

1. 00 

1. 00 

0. 00 

0. 25 

1.00 

0. 25 

柠 

檬 

1. 00 

1. 00 

0. 00 

1. 00 

1. 00 

1. 00 

葡萄柚 

0. 75 

1. 00 

0. 00 

0. 75 

1. 00 

0. 75 

酸 

橙 

0. 75 

1.00 

0.00 

0. 75 

1. 00 

0. 75 

红 

柑 

0. 50 

1. 00 

0. 00 

0. 25 

1. 00 

0. 25 

金 

桔 

0. 00 

1.00 

0. 00 

0.00 

1.00 

0.00 

柑 

橘 

0. 25 

1. 00 

0. 00 

0.00 

1. 00 

0. 00 

苹 

果 

1.00 

0. 00 

1. 00 

0. 00 

1. 00 

0. 00 

杨 

桃 

0. 00 

0. 00 

0. 00 

0. 25 

0. 00 

0. 00 

香 

蕉 

1. 00 

0. 00 

0. 00 

0. 00 

0. 00 

0. 00 

蔓越莓 

0. 75 

0. 00 

1.00 

0. 75 

1. 00 

0. 75 

樱 

桃 

0. 25 

0.00 

1.00 

0. 25 

1. 00 

0. 25 

草 

莓 

0. 75 

0. 00 

1.00 

0. 00 

1. 00 

0. 00 

椰 

子 

0. 50 

0.00 

0.00 

0. 00 

0. 00 

0. 00 

菠 

萝 

0. 50 

0.00 

0. 00 

0. 50 

0. 00 

0. 50 

绿葡萄 

1. 00 

0. 00 

0. 00 

0. 50 

0. 00 

0. 50 


除非另有注明，否则接下来本书的模糊并集与模糊交集都依序使用上述极 
大与极小运算公式。然而，我们必须记住，这不是模糊集合理论对并集或交集 
的唯一定义。史密生曾延伸讨论过这个议题，虽然其他参考书籍也曾在思考 t 
规律与 co 规律时提供了很有用的讨论，但在某些脉络下，针对某些特别应用上 
的需求，对运算公式的特殊定义可能更适当。例如，乘积的运算公式为 
mx\JY =mx -\~rny —mxy 与 mxfiy = mxmy ,这些公式事实上与联合独立事件 
的概率论有相同的规则。它们与极大一极小运算公式的不同之处在于，这些公 
式是连续性的，因此，成员归属值的变化总是能反映在并集与交集的成员上，连 
续性的变化或许能更有效地反映在潜在的概念空间里。对极大一极小运算方 
式来说，情况未必如此。 

除了不连续性之外，极大一极小运算公式仍然是“产业标准”。它们运算容 
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易，在某些情况下占优势。其中最重要的或许是，这些运算对输入成员归属值 
时所产生的干扰较具抵抗性一一这些干扰通常来自测量误差或者实际的变 
化——因此只能给予等级式的测量。运算方式的多元化是模糊集合理论的优 
势也是弱点。在优势方面，许多不同的运算公式提供不同概念建模的 工具; 在 
弱点方面，许多选择使得我们难以分辨何者是最适当的方案。当然，这些运算 
公式都可以简化到经典集合理论，也就是只有0与1两极的元素。 

这个理论使我们得以将运算公式组合起来，从而创造出相当复杂的集合。 
事实上，正是由于将许多简单的运算公式与规则建构串连成许多有趣的集 
合，模糊集合理论才有其长处。脐橙的成员等级在“〜常见的 n 酸的”一类是 
min ( l -1.00, 0.25) = 0。确实，既然脐橙是甜而常见水果的典型，那么在上述 
集合里的成员等级很低也很合理。 

模糊包含就更复杂一些。我们在此先介绍经典包含比率 ( CIR ), 在第5章 
会更完整地讨论。对清晰集合来说，包含是有或没有的议题，集合 A 或被集合 
B 所包含，或没有，也就是说，至少有一个集合 A 的元素不在集合 B 中,所以不 
算包含。这完全没有模糊之处，因此从数据分析的角度来看是不合理的，我们 
总是预期在整体趋势之外会有一些随机产生的误差。由于清晰集合算是模糊 
集合的特殊类型，其中没有任何成员数值出现在单位区间之内，所以这也是一 
种归属函数。所以，包含可以被改写成对成员归属的命 题:当 B 包含 A 时，集合 
A 内的事物所具有的成员值不能超过集合 B 内的事物。这可以被轻易地延伸 
到连续的成员值。因此， CIR 就计算了这类事物在所有集合内事物的比率。如 
果共有《件 事物： 

CIRacB = [2. l ] 

由于这是个比例，所以就可以运用有关比例的标准统计方法来建构 CIR 的统 
计检验基础，这也是 CIR 运算的重点之一。 B 包含 A 的另一个用处在于估计 
WA 与 / WAflB 有多相似，这可以简单地用 mAnfi 与 wa 重合的点来解。如果两者 
重合，那么应该会形成一条截距为0、斜率为1的直线。以水果为例， 
CIR 酸的 c 常见的=15/16 = 0. 9375,这指出，酸的被模糊包含在常见的水果里。 
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我们曾说模糊集合违反中间排除律。以酸橙为例，它有 0. 75的酸性也有 
0.25 〜酸性的成员归属，则其“酸的 fl 〜酸的”的成员值是 min (0. 75, 0. 25) = 
0. 25。当我们考虑模糊性情况时，这貌似合理，但是从基因工程学的立场来看， 
一种植物不可能是柑橘属又不是柑橘属，也就是说，酸橙在“柑橘属且非柑橘 
属”下的成员值是 min ( l ，0) =0,这是理所当然的。 

我们曾提到对模糊集合来说很重要的3种运算方式 :集中 、扩散以及加总。 
因为这些运算都只适用于0与1之间模糊的成员归属，它们并没有运用于经典 
集合。集中与扩散和补集类似，是对单一集合的修正.加总则与并集或交集类 
似，处理多集合的连结。集中与扩散是对成员归属的修正，当 X 是被定义的成 
员特质时，查迪建议，集中与“很 X ”，而扩散则与“有点 X ”的说法类似。原版的 
集中运算公式是 WO = ，而扩散运算公式则是= wj 。可以把上述公式 
一般化为 :集中 就是乘幂大于1、扩散就是乘幂小于1大于0。 

这些公式的灵感来自单位区间内可用乘幂转换的特质。乘幂转换可以投 
影到单位区间内，并且被当成成员归属的数值。集中是把除0与1之外的所有 
数值都简化到升幂的形式，但递减的效果在数值小的时候 最弱; 相反，扩散是令 
0与1以外的所有成员数值都递增，但渐增的效果在数值大的时候最弱。图 2. 1 
呈现了这种效果，图 2. 2显示了集中与扩散对前文提到的穷人的归属函数 
Poor ( x ) 的作用。 



成员值 

- 扩散 - 未转换 - 集中 


图 2.1 集中与扩散 
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Q I I I ■ I I ■ I I I ■ I I I I I I I I ^ 

15 20 25 30 35 

收入 （ 1000 美元） 

—— Poor (x) ——集中 ——扩散 

图 2. 2集中与扩散对穷人的归属函数 PoorU ) 的作用 

对模糊集合理论用来模拟这些日常自然语言的适切性，又称“语言学藩 
篱”，质疑最力的是数学家勒考夫，特别是在是否可以用扩散来模拟“有点”一词 
这个问题上 ( Lakoff , 1973)。史密生对哲学与认知科学的相关文献提供了延伸 
的讨论。然而，我们并不预设模糊集合理论是自然语言最佳的模型，但它在系 
统性的逻辑重建上，能模拟科学家操作的正式语言。对模糊集合理论最好的评 
判标准就是它能否提供有效的结论。我们将在第3章中进一步讨论模糊集合归 
属的数值转换，并在第6章里展示集中与扩散的应用实例。对其广泛应用的一 
个反对意见是，它们需要高水平的测量，这比多数使用者所期望的还困难。 

我们最后讨论的模糊集合公式是模糊加总，以符号 T ’ 来表示。因此，集合 
X 与 Y 的加总就表示为 XIY ， 而集合 X 、 Y 与 Z 的加总就表示成 XrVTZ 。 经 
典集合运算有两个连接法——并集与交集，而且已经运用于模糊集合。前文提 
及，并集的成员归属是由集合里归属程度的极大值来决定的，然而交集的成员 
归属是由集合里归属程度的极小值来决定的。这里经常提及最强连接/最弱连 
接的比喻，因为并集的归属值是用数串里的最强连接，而交集的归属值是用数 
串里的最弱连接来决定的。在这个意义上，模糊并集是完全补偿性的，在集合 
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A 、 集合 B 、 集合 C 里较低的归属值可以被集合 D 里较高的归属值所补偿，但是 
当集合 D 的归属值也一样偏低时，集合 A 、 集合 B 、 集合 C 的数值就不能补偿 
之。换句话说，模糊并集模拟了多余的因果关系，而模糊交集则模拟了共生的 
因果关系。 

然而，在许多情况下，理论告诉我们，在加总过程中，许多特质贡献于整体 
归属值，而且其中一个偏低的归属值可能无法被其他集合里较高的数值所补 
偿，这就违反了模糊并集公式。事实上，这种情况与建构因子分析时使用的假 
设非常相似，也就是各种组成成分整体上有加总的效果。虽然有很多加总公 
式，但在此，我们只讨论比较简单的两种。第一种是归属函数的几何 平均： 

m x Yy =-Jm x m y 

几何平均的运作类似为彼此相近的归属值取平均，但是在归属值接近于0的时 
候更像是交集。第二种公式是并集与交集的算数 平均： 

max ( m x , m y ) + min(m x , m y ) 
m xry = 2 

在两个集合的例子中，这等于是归属值的算数平均，但在 3 个以上的集合相加 
时，就未必如此。更复杂的运算公式——前面的两种都是其特殊化的变化一 
可以在相关著作中 ( Zimmerman , 1993) 找到讨论细节。如果我们把“常见的且 
酸的”通过几何平均加总，那么我们可以得到胳橙的 数据： 

71. 00 X 0. 25 = 0. 50 

而其算数平均则是 （1. ⑻ + 0. 25)/2 = 0. 675。对这些加总方式的解释属于实际 
理论所探讨的范围。 

层级集合 

层级集合提供了清晰集合与模糊集合的有用联系。从模糊集合 X 开始，我 
们引进一个层级指数， Ae [0, 1]，而且令集合 Ya = { xex \ m. r > A }。 用文字表 
述，即 h 是从模糊集合 X 中创造出来的经典(双元)集合，其中，部分归属值大 
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于 A 。 假设 X = {( a , 0), ( b , 0. 2),( c , 0. 3),( d , 0. 6), ( e , 0. 8), ( f , 1)}, 则 
y 0 ={ a , b , c , d , e , f }, Yo.5 = { d , e , f }, 因此， = {0。 请留意，当 A >0 时， 
Y .^ Yg , 就像前例所见 ， Yi CZVo .5 cy 0o 层级集合的用途之一是绘制偶发分 
配表。以水果集合为例，“常见的 as” 与“酸的 G.5” 交互表可以绘成表 2. 4。 

表 2.4 层级集合所产生的交互表 

常见的。.5=0 常见的 as = 1 

酸的。 .5 = 1 0 6 

酸的 。 .s = 0 4 6 


模糊数据与模糊变量 

“几个”是个数值吗？这个词显然包含数据的信息，但是很模糊。它可以用 
来指涉某些可能的整数范围，其中有些比其他的更接近“几个”。“几个”并不指 
涉一个整数，它相当不清楚。依据模糊集合理论，像“几个”这种数量词，可以用 
一个模糊集合使之变得精确。史密生曾提供从23个大学生调查得到的数据，以 
赋予“几个”更精确的意义，如图 2. 3所示，画出归属值的平均数与±2个标准误 



- m (jc) — 2s - m (jc) - m (jc) + 2s 


图 2. 3 “几个”模糊数据 
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(已经截取到单位区间内）。人们被要求在有限的回答范围内，给每个数字一个 
有数值的归属比率，并且投影到单位区间内。很明显，分布的波峰在6之上，依 
据个人主观的判断，5到8是最符合“几个”含义的数字。以量化答案来理解不 
确定性的程度是可行的。模糊变量提供了一种把定性的语言转译成定量命题 
的方法，可以让“高度不可能”这一类用词变得更精确。 

这些想法可以一般化为模糊变量的概念。例如，针对青少年性行为的调查 
问卷可能会问 :“你 过去一个月有过多少次性行为?”回答项目可能是{没有，几 
次，多次，许多次}，通常的处理方式是，把回答划成几个互相分隔的区间，比如 
{0, [1, 4], [5, 8], [9, 30]}，当然可能有其他解法，这些分析的解决方案能 
够把定性的回答用比较清晰的方式来量化。此外，我们可以用类似前面创造 
出“几个”的模糊数据方式来定义各个答案，因此，可以让我们对该问题有一 
个更清楚的概念。图 2. 4表示，这些回答可以被投影在0到30的单位区间内 
而成为模糊数据。这些区间的重叠显示了这些用词的指涉有一定程度的不确 
定性。 


0 5 10 15 20 25 30 

天数 

无 ——几次 一- 多次 许多次 ——每天 

图 2. 4模糊变量“过去一个月的天数” 
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模糊集合的图解 

对任何数据分析来说，可视化都是关键成分，模糊集合的数据分析也不例 
外。任何数据分析的第一步总是画图。我们将会用常见的优良规范与指引来 
绘图，先讨论单一模糊集合构成的图像，重点放在集合本身及其数域，然后我们 
才讨论双向变量图，解释两组模糊集合所属事物归属值的数域。若读者有兴 
趣，还可参考杰考比与克里夫兰的有用讨论 ( Jacoby , 1997、1998; Cleveland , 
1993)。由于归属函数是单位区间里的一个数值，我们可以画出其向度。显然， 
若数域集合更结构化——例如，是数据——则图像分布也就更有结构，就像“几 
个”所呈现的图像(图 2. 3)。在第5章中，我们会用点状图来显示一个集合包含 
另一个集合的情况。 



第 3 章 I 测量成员归属 


导论 

就像第2章里提到过的，运用模糊集合理论时，我们需要做到两点：首先， 
精确定义数域 X 。事物的全集包括什么？这可以包括一些容易列出名单的集 
合，例如，全世界的所有国家或世界500强企业，或是所有小于100岁的人，虽 
然实际上可能还没有这样的名单。其次，对 X 内所属模糊集合的事物赋予归 
属程度或数值。这个模糊集合究竟代表哪些性质？归属值的等级究竟是什么 
意义？ 

本章我们主要关注第二项任务。我们将从“成员归属的程度”开始谈，之后 
回顾模糊集合理论中归属函数运算的要点，然后讨论归属函数的测量性质并且 
将之与社会科学测量的文献相联系。最后，我们讨论成员归属赋值与归属函数 
建构的策略，包括较少被注意到的归属赋值里的测量误差问题。我们会用例子 
贯穿全章来说明重点。弗桂能对本章提及的重点有更详尽的探讨，同时也指出 
了数域空间不适当所造成的后果。 

我们要提前指出 一点: 对所用的集合，谨慎清晰地概念化之是必须的工作。 
不幸的是，就像阿考克与柯里尔指出的，许多社会科学概念本质上具有争议性 
是由于缺乏单一且精确的定义 (Adcock Collier , 2001)。这里，举出3个来自 
经济学、政治学与临床心理学的例子，来说明缺乏谨慎的概念化与测量所导致 
的持续纷争:（1)不同论述的背景观念引出对贫穷与不平等的各种不同概念，选 
择不同的观点就导致不同的测量 ( Ravallion ，2003) ; (2) 由于对什么是“真正的” 
民主有不同定义，并且缺乏理论与概念发展的谨慎思考，民主测量的文献总是 
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令人困惑 (Munck &- Verkuilen , 2002);(3)自第一版的《精神症状与统计手册》 
(Diagnostic and Statistical MawwaZ ) 在半世纪前出版之后，大量的研究成果仍 
无法解决忧郁、焦虑或精神分裂等重大失常症状的实际认定问题。对于审慎思 
考测量议题来说，统计技巧并非必须，然而某些技巧比其他的更加适合测量不 
同选项。因此，本章关注的重点是模糊集合里系统性的成员归属赋值过程的必 
要条件及必须优先解决的相关议题。 


建构归属函数的方法 


何谓归属函数？就像第2章提到的，正式来说，它是在事物所属空间内（可 
以是量化或非量化)将某种特质 A 投影在单位区间[0, 1] 之内的 函数： 

mA ( x ) : [0 , l ] [3_ 1] 

它是测量某种具备特质 A 的事物 x 成为特定集合内成员的程度的“集群性”指 
数。它所测量的是 “ x 是 A 的元素”程度的真实数值。模糊集合允许部分归属 
于某集合，所以变量可以是部分归属的。例如，在给某个测验打分数时，我们可 
以划分未通过、半通过与全通过3种类型，在“这题的正确答案”之模糊集合中， 
依序以归属值0分、 0. 5分或1分来表示。 

由于一个归属函数对每个事物 x 只能赋予一个数值，一次只能表达一个向 
量，所以多向量就必须由多集合来处理。整体而言，归属值只是潜在的，不能直 
接被观察到，而且只能附属于特定的解释脉络。虽然“一眨眼”可以由与模糊集 
合“漫长等待”的关系来解释，但这个集合的意义只能依赖对数域的认定。在美 
国邮局用平信方式寄包裹，花3周就算漫长等待，但是出高价请快递，花2天也 
算漫长等待。因此,讨论集合的脉络必须越清楚越好。 

归属程度也需要解释性的基础，这个基础仰赖的是成员归属赋值的过程。 
例如，要设计一套语言分类方式以表现对某事同意程度的归属数值并不困难， 
但是对更精致、更多渐进类型的归属程度赋予数值就会更困难。要定义诸如 
“有点属于”或者“既不在内也不在外”之类的判断性词汇，甚至赋予其数值并确 
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定它们被量化的过程有一致性，那真是难上加难。然而，最令人困扰的关系莫 
过于那些介于有序等级与量化数值之间的类型。在很多情况下，只要有理论文 
献或者被其他专家使用过的判断作为依据，把数值0与1的归属值运用到“从 
不”与“完全”或“典型”之类词汇时，还算站得住脚。但是如“一半在内一半在 
外”或者“既不在内也不在外”等某些词汇，如果给个1/2的数值，恐怕争议会很 
大。然而，除非有什么特殊操作化资格的依据，否则比上述区分更细致的问法 
将更抽象难解。与这种情形相反的状况是对典型赌徒或决策者主观概率的定 
义，一个事件发生的概率值表示，若事件发生时，当事人可以得到1美元，而 
没事就什么都得不到，则期望值为元。在此定义下， 0. 4或 0. 5的概率对决策 
者预期的报酬来说，有很清楚的意义。 

即使人们的判断有内在一致性，这种一致性也无法跨越不同个体的主观判 
断，因此导致了校正的问题。华尔斯腾等人建构了一个主观判断的概率测量等 
级，然而仍无法避免不同主体间实际认知的变异，由于置信区间非常宽，他们也 
不建议取平均以求出共同认定的等级 (Wallstenet al . ，1986)。这表明，主观归 
属值的认定不具有可比较性，因此，他们无法将标准化文字的意义校准为一致 
的刻度。 

尽管我们在直觉上可以认知模糊性的概念与归属程度，在查迪1965年的经 
典之作发表几年后，人们仍然感到困惑，直到最近才日渐清晰。确实，现在有好 
几种归属程度杰岀而且可变的定义。运用史密生等人所提出的类型学，我们可 
以把这些解释方式分为4类，每一类都适用于某些特定的研究目的 （ Smithson , 
1987:78—79; Bilgic &- Tiirksen , 2000)。 

第一类可称之为“形式化解释”，也就是纯粹用数学概念处理归属函数，把 
潜在的支持变量投影到归属程度上。这些变量通常有不同的来源 :主观 判断的 
认定、间接度量/测量的模型或者是客观变量的测量等。许多模糊集合理论家 
自己就是形式化模型的使用者，同意使用0到1区间或者其他的归属范围，然后 
再用一个平滑的函数定义前述变量所有区间的归属值。 

案例 3. 1:人类发展指数 

相对于人均国内生产总值 ( GDP ) 或者能源消耗这两种常用的发展指标，联 
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合国发展总署 ( UNDP ) 人类发展指数 （ HDI ) 旨在创造一个更广泛、概念上更丰 
富的发展程度测量 ( UNDP , 1999)。人类发展指数的设计者们将最高层次的发 
展概念划分为3种成分，即经济、健康与教育。人类发展指数隐而未显的向度之 
一，正是它可以被当成一个模糊集合。 

为了结合这些人类发展指数的成分，每个成分都必须被给予一个普遍的比 
值并且选定单位区间。此外，设计者们相信，用这个指数某个特定区间的上端 
与下端，可以显示从未发展到已完全发展之间的重要关键点。一国要是达到区 
间上端，可以被视为这些成分完全发展，一国如果掉到底端附近，则可以被视为 
这些成分完全低度发展。区间两端之间的变异数是重要的，但落到两端之外则 
没有太大意义。这与我们在第2章讨论的贫穷线情况大致一样。表 3.1 显示了 
指数的成分、用来测量成分的指标、上下区间与给每种成分设定归属值的计算 
公式。 


表 3.1 人类发展指数成分的归属值设定范例 


成 分 

指数 

低区间 

高区间 

区间之间的归属值 

经 济：是 否能活 
得体面？ 

人均 

GDP(PPP) 

100美元 

40000美元 

z/xw — log(GDP/r) — 1 or (100) 
- x - m ~ log( 40000) - log( 100) 

健 康：是 否能活 

初生预期 

25岁 

85岁 

健康=预期寿命 一25 

得长久而健康？ 

寿命 

85-25 

教育: 有知识 

成人识字率 

0% 

100% 

教育= 2/3成人识字率+ 

文化？ 

与总人学率 

1/3总人学率 


形式化研究者并不重视“归属程度”如何赋予数值或任何预设建构的度量 
过程。以人类发展指数为例，设计者使用的是线性过滤法，但他们其实也可以 
用其他平滑的单调函数。相反，预期寿命函数可以用 logistic 函数： 


mH (. x ) = l/[l + e "] [3.2] 

此处， a 是斜率， 6 是 =1/2 时的预期寿命。假设 a = 0.1 且6 =55时, 
曲线如图 3. 1所示，那么，线性过滤法与 logistic 归属函数都会通过 (55) = 
1/2这一点。其实，线性过滤法与 logistic 函数是相当类似的。确实，它们高度 
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相关，任何合理的单调函数都会高度相关。形式化研究者需要一些实证或者理 
论的标准，才能在一群彼此高度相关的函数之间，选择一种最好的转换方式。 
如弗桂能注意到，正式模型转换途径的主要问题是，可能的转换函数无限多，但 
其中特别适当的选择并不明显。然而，转换方式又是赋予归属数值最重要的成 
分，无论其估算的基础是怎么得来的。 


0 20 40 60 80 100 

预期寿命 

- 线性 - logistic 

图 3. 1线性过滤法与 logistic 归属函数 

第二类是所谓的“概率化解释”，也就是以概率为基础，赋予归属程度。最 
直观的方法就是将事物: T 在集合 A 的成员归属值等同于 I 属于 A 的概率。这 
个概率可以来自单一判断的主观评价，也可以来自另外两种方法——第一种是 
把“: T 属于 A ” 的人在样本中的比例当成归 属值; 第二种是把“: C 在一定程度上属 
于 A ” 的人在样本中的比例当成归属值。 

这种解释方式有时又叫做对模糊归属的“随机集合”观点。如果在前述“几 
个”的模糊集合里，4次被赋予 0. 7的数值，那么，调查人员对选择4次的解释 
是: 70%的受访者认为“几个”应该是指4个。随机集合对 0. 7的解释是，在从4 
到7的数值区间里，认定“几个”是4个的人有70%。虽然很多模糊集合研究者 
排斥归属程度的概率化观点，但在某些案例里，随机集合观点还是具备高度一 
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致性与解释上的优势。在第5章，我们将讨论决定子集关系的固定包含途径法， 
并对随机集合提出自然的解释。 

当然，形式化与概率化的想法可以用概率分布转换为归属函数的方式加以 
合并。有研究者根据既有人口与各相关变量（例如，收入）的累积分布函数 
( CDF )， 设计了一个贫穷线的模糊归属函数，他们根据一个原始估计值 ( x Q ) 的 
瓶颈来定义0类 (Cheli & Lemmi , 1995) ，其归属函 数为： 


wp ( x )= max [0, ( F ( x ) — F(_ro))/(l—F(xo))] [3.3] 

此处, FU ) 是 x 的累积分布函数，该公式可以应用到任何有累积分布函数的变 
量上，而且事实上，这是个截断的累积分布函数。这个取向的推广性是可以想 
见的。 

对概率化解释的推广者 （ Hisdal ， 1988； Thomas , 1995) 而言，他们认为，归 
属等级就跟主观概率一样，反映了知识的不完善与/或分类上的误差，这也就暗 
示了，在完善的知识与无误的分类下，模糊归属的等级根本不会存在。反对之 
说则认为，对归属等级的判断根本不需要从不完善的知识或者误差而来，事实 
上，值得信赖的专家就可以预测之。比如，与新手相比，那些可以分辨“暖”绿色 
与“冷”绿色的艺术家们知道，前者其实含有少许红色，他们根本不用冒险猜测 
结果。同样，一个在测验中获得部分成绩的学生通常也拥有部分相关知识，这 
不是赌来的 结论; 在缺乏更完整信息的情况下再次参加考试时，这个学生极有 
可能仍重复答对与答错的部分。 

第三类是赋予归属值的决策理论观点。在这个取向中，成员归属程度取决 
于宣称 ： r 属于 A 所得到的效用（代价），这当然与 x 属于 A 的真实程度相关 
( Giles , 1988)。决策理论观点的早期版本是与概率论的信号侦测理论 ( SDT ) 相 
结合的，其中，预期 x 属于 A 相对于 x 属于〜 A 的效用与 x 值或背后相关变量 
的命题共变。无论是效用论或者信号侦测理论的架构,都把“少许”或“几个”之 
类的标签当成从一个卷标组合(通常是有限数量)里选出来的。因此，这些架构 
可以运用到那些真正做决策的例子上(例如，是否发布警报或者应该把看到的 
数量称为“少许”还是“几个”)。这背后的假定不是我们只有有限的知识，而是 
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只有少数的选择。就像形式主义者一样，决策理论观点把效用等级的来源问题 
放在一边，而寄希望于得到建构效用等级的方法。 

第四类学者来自那些把归属值看成公理测量理论议题的人 （ Krantz , Luce , 
Suppes &- Tversky , 1971 ； Michell , 1990)。 根据公理取向，我们应该可以把归 
属数值的设定量化为极小的数点。 

这个取向的重点在于认为量化结构的归属等级可以拆解成质化公理条件 
的集合，并且能够也应该以实证方式呈现，以下是一些例子。华尔斯腾等人的 
研究为模糊集合理论竖立了黄金标准，因为公理方法被用来呈现主观符合某性 
质的等级比率，可推导出的归属值 ( Wallstenetal . ，1986)。弗桂能提出了一个 
使用 Bradly - Terry-Luce ( BTL ) 模型转换的简单案例，在一些医疗职业之中，根 
据声望作为选择的判断，在“有声望的医疗职业”的模糊集合上形成了一个归属 
函数。这个由 BTL 模型产生的偏好等级有一个公理 基础: 在模型配适后，它满 
足一个强效用等级的公理，并且产生事物的等距比率。最近，有学者研究介绍 
了在模糊集合的脉络下，使用比较法与主观比率等级产生归属值的办法 
( Marchant , 2004 a 、2004 b )。 最后，有研究者从公理测量理论的角度阐释了认 
知模糊逻辑模型 ( FLMP ), 在认知模糊逻辑模型来看，受测主体所提供的是在一 
群集合里对归属值的直接评价，这可以用来产生对选择的预测。该研究显示， 
FLMP 模型与 BTL 模型是相同的，差别仅在于，主体提供的是等距数值而非 
选择。 

计量心理学与公理化测量之间的关联性似乎在本书中被加强了。一方面， 
计算能力追上了检验测量公理时极端严格的需要，已经能为杂乱信息里的代 
数/决定论的测量模型提供理性而有概率基础的检验。另一方面，与依赖数据 
的拟合度检验相比，公理化方法往往能提供更犀利的不配适模型指数。例如， 
著名的 Rasch 或者单变量 logistic ， 或项目反应理论模型（也就是数学上与 
Bradley - Terry - Luce 相同的模型)都符合共生测量公理，因此可以产生等距的信 
息。在 Rasch 模型的脉络下，主观与项目式的推论都可根据公理条件而获得改 
进 (Karabatsos Ullrich ， 2002)。在这个领域中，超越早期简单研究的进一步 
发展将很有帮助。 
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所以在上述4个取向一形式化论、概率化论、决策理论与公理方法—— 
中，何者是比较正确的呢？我们认为，上述 4 种都不完全正确。如果研究者的问 
题比较接近决策理论的问题，那么决策理论的工具可能比较相关。此外，如果 
我们想要对归属函数提出某种特殊的计算方式，公理化测量可能是最佳的观 
点。总之，我们认为，对每种方法抱一种普遍的怀疑态度并审慎选择才是健康 
的治学态度。同时，研究中有机会合并使用多种取向。 

模糊集合所需的测量特质 

在模糊集合中，成员归属的诠释具变异性，而且从测量的性质来看，在归属 
函数的拟合度变化极大的条件下，我们应该思考我们所用假设的脆弱程度，并 
且妥善运用模糊集合。虽然从统计显著性来看，在清晰的结论与强烈的假设之 
间，往往必须作出取舍，但我们应可以考虑少数或/且较弱的假设。 

“极小化派”归属赋值的方法采取类似 {0 =必然非成员，可能的成员，1 = 
必然是成员丨的作法。中间程度成员归属（因此有模糊性）的案例则依赖事物的 
比较(例如，: c 与30，如判别 x 是否比7更接近于集合 A 。假设这比较中有3个 
样本，其不平等的排序为 mAix ) >mA (: y) >twa(z) ， 则归属值可能出现在 0 与 
1之间，这就使 A 成为一个模糊集合。 

或许让人感到惊讶的是，多数模糊集合可以有效运用某种极小化赋值法， 
我们仍可运用模糊并集与交集的极大或极小运算。概率化观点与决策理论观 
点则导致拒绝使用极大与极小运算公式的结果 ( Hisdal , 1988)。由于公理化测 
量架构采取归属值(公理)的质化条件，因此必须用极大与极小计算公式(例如， 
Bollman - Sdorra , Wong &- Yao ， 1993; Yager , 1979)。 然而，相对于其他强大到 
足以产生等距或数率的测量的集合运算（如累加方式），采取极大一极小计算公 
式未必有利，反之，极大一极小公式最适合定序的数列。 

余集的计算更有问题。概率化与决策理论的观点依赖于对余集的标准定 
义： m~A (jt) = l — mA ( x )„ 更有甚者，某些测量学者不正确地认为，数值比率在 
缺乏[0, 1] 之类的固定区间时，将无法形成余集。然而，史密生指岀，即使没有固 
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定区间，在定序归属值下，只要有一个被接受的中立点(9)，就足以支持一个余集 
的“镜像”定义 （ Smithson , 1987： 86—88)。镜像是 2 g — 1 ，因此 m 〜 a (2 9 — 
j ) =1—»2 A ( x ) o 极小化论者的赋值是 {0 = 必然非成员，可能的成员，1 =必然 
是成员}，即使不给“可能的成员”赋值，也可计算出余集。 

在有明确定义归属函数的模糊集合之间，比较可能还没问题（如果有人愿 
意建立或假设其可比性），但在不同归属数值形态之间的模糊集合进行比较就 
异常困难。归属值测量依赖同一集合内事物的比较，以判别2是否比 y 更接近 
于集合 A 。 相对而言，性质排序是根据不同集合之间对相同事物的比较，亦即相 
对于集合 i 3, : r 是否更接近于集合 A 。如果我们无法建立性质排序，则无论集合 
A 或集合 B 的归属函数层级有何关系，集合 A 与集合 B 内的归属程度根本是不 
可比较的。 

如果集合间使用同样的度量标准，则在性质排序时，往往简单假设彼此之 
间的归属值相等，即使在某些情况下，这个假设是有争议的。除非（且更常见 
的)我们在比较时必须给定不同集合之归属层级的同一个排序。如果我们是比 
较“苹果”的某个向度与“橘子”的另一向度，共同排序可能极为困难。我们将在 
第4章与第5章继续讨论这些议题。然而，这一节的重点在于，模糊集合的架构 
会迫使研究者在测量的性质上作出选择。最后，我们还是要决定，在集合里的 
是什么？什么要排除到集合外？有哪些是既非集合内也非集合外的？如果要 
给归属赋值一种度量，那么，对完全归属、部分归属与非成员的部分，都必须同 
时建立依据此度量的标准。 

归属函数的测量特质 

我们该如何决定归属函数的测量层级？模糊集合的研究者曾运用的层级 
从定序(独特与单调转换）、绝对值到单一的都有 (Bilgic & Ttirkgen ， 2000)。模 
糊集合与社会科学共享这种多样性，其变量的测量性质仍然引起争论 ( Michell ， 
1997)。我们因篇幅有限，无法回顾这些争论，但若读者想了解这些争论，可以 
通过使用模糊集合来掌握测量议题。 
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数据理论里有一个核心重点值得在此强 调:从 没有一个测量层级明显附属 
于一个变量。相反，对每个特定议题来说，测量的层级总是要经过调整，才能符 
合其情境。确实，在社会或心理研究中，即使是完美定义其物理意义的定比层 
级测量(例如，反应时间或电量），也未必能够与感兴趣的行为产生明显的联系。 
例如，国家财政税收占收人的百分比 一一 经常被用来测量国家能力——有时被 
当成是一个“明显的比率”测量的例子，但是谈到0% (索马利亚）与10% (巴拉 
圭)是否与30%(西班牙)及40% (意大利）相等，在国家能力的概念上，我们实 
在很难说它们具有同样差距 ( Lieberman ， 2000)。从真正的国家能力来看，第一 
组的差别是从没有到可能足以巩固，第二组的差别可能只是税收政策稍作改变 
而造成的。 

总之，观察数据与概念变量之间的关系，通常依赖研究者的界定，这是研究 
者的义务。弗桂能注意到，数据与概念变量的关系经常被“越多（少)越好”的观 
点所主导，即数据与概念的关系是单调的，而且“刚刚好”，亦即在数值之间，总 
是找得到理想定点，使归属程度从最高点开始下滑。此外，多数模糊集合的运 
用都隐含着效果递减的想法，在接近两极 (0 与 1) 时，归属值上升或下降的变化 
应该相对减缓。 

什么样的测量性质可以界定一个归属函数，以超越前述的简单必然性？对 
某模糊集合 A 来说，任何事物的群集 Ui ，： r 2 , …， a } 都可以依据对 A 的归属 
程度来排序， 所以： 

mA (xi ) mA ( x2 ) < … < mA ( x *- i ) sC ^ wa ( j：k ) [3. 4] 

如前文所述，我们必须严格定义其中两个不平等，也就是说，必须有 A 、 a 与 
-r j ，令 wa (xa ) < wa (>r;) < mA (xj ) 。 

此外，归属函数应该有两个终端，分别代表完全归属与完全非归属。此时， 
我们已经移到更高水平的、或许是被标准教科书忽略的测 量:在 0与1之间的排 
序。在这个情况下，我们可以 定义： 


0 s ；：： mA (xi ) < … < mA Oc!+) < ... < twa ) 
< ^ mA (jt 卜 i ) ^ wa (xk )^1 


[3. 5] 
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对每个 A 来说，如果我们让 m A ( x ; )<1/2或 ma (: c , )^1/2, 则我们还是能 
得到一个比较结构性而非简单的定序度量。在第4章，我们将运用一个包括非 
归属者、近乎非归属者、近乎完全归属者与完全归属者的归属函数。如果我们 
能界定一件事物令= 1/2且该模糊集合是常态的（也就是 
最少有一件事物的归属值为0,另一件为1)，我们将会更有结构性。总之，从对 
事物归属值的一个微弱定序开始，随着我们认定越来越多事物附属的归属程度 
数点，我们也将可能的归属值限制在更细致的层次上。 

从或多或少在被限制的准排序度量朝真正量化的归属函数转换，需要非 
常强的假设，尤其是诱导方法或是以实证为基础的度量技巧，这些并没有超 
越社会科学的传统测量或是度量建构模型的范围，主要的差异在于对完全归 
属、非归属及/或中立点界定其度量基准点。这并不代表获得真正量化的归属 
函数很简单，然而，经常发生而且更直接的是，在既定的运用时，对变 M 的可 
能范围采用敏感度分析，以显示归属值在遭到扰乱时也不会改变。确实，在 
控制系统理论对模糊集合理论的运用上，这是很广泛的操作方式。这种做法 
的缺点在于，因为没有增加任何效度，这种度量可否推广到其他运用方面尚 
存疑。 

对成员函数的最直接的操作方式是在界定终端的同时，使用一种既有支持 
变量的性质。如果我们以界定两边终端的方式把单一变量投影到归属值上，就 
可以插人介于其间的归属值。事实上，这正是线性过滤法所做的，两个终端中 
间数据的插补用的是一条线性函数，人类发展指数的例子就完全奠基于这种方 
式。尽管线性过滤法经常运作良好，而且又有精简的优点（就像 logistic 函数所 
显示的），但我们事实上可以选择不同的插补函数。如果我们愿意界定中立点 
或者其他内部参照点，也可以使用分段插补函数，例如，分段线性或者三次方 
程，视我们希望得到的函数的平滑程度而定。参照点为控制插补函数的形状提 
供了更多的信息。 

基于数据收集的方法，我们可能获取更多有关排序本身的信息。在收集数 
据时提供实际的多余信息，就可能允许对效度的互相检定与模型配适 ( Coombs , 
1951)。假设排序性质允许人们检查回答是否为定序的方法提供了有用的工 
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具，同样的原则也适用于更高层次的测 M 。 确实，这正是公理测量理论所探讨 
的，测量模型通常允许假设检定并且“提升”定序测量到更高的层次。这种方法 
包括在喜好与能力测试中，使用项目反应理论方法和适合态度测量的更弹性化 
的模型 ( Rossi , Gilula &- Allenby , 2001)。事实上，所有的方法大多引用 probit 
模型或 logit 模型，用一个相应于定序分类的等距潜在连续值去估计“瓶颈”数 
值。如果我们有标准来指定一定的瓶颈，如非归属、中立、且/或完全归属的截 
点，我们就可以用线性过滤法或者适当的曲线来插补归属值。总之，从主观判 
断到直接赋予归属值、间接度 M 的方法（例如•项目反应理论模型或最适度量）， 
再到基础测量法，计量心理学与度量技巧的方法仍是开放的。 

成员归属定义的不确定 性估计 

“我们应该在括号里放些什么？对完善的计量经济学来说，最基本的原则 
就是，每个认真的测量都值得加上一个标准误 。” (Koenker Hallock , 2001) 除 
了模糊性与概率之间令人困惑的关系以及对归属函数性质的不同意见之外，在 
操作意义上，很少有人留意到应该对归属函数提供不确定性的估计，这是个很 
严重的缺失。对任何类型的测量来说，我们没有理由相信归属赋值没有误差， 
而且提供误差程度是研究者的义务。模糊集合理论的发展一直缺乏误差的正 
式理论，这是因为在工程学上，通常可以用许多测试去显示机构运作的妥当性。 
不幸的是，经验科学家的关怀没有得到重视。 

其实有许多可以使用的技术，但我们没有足够篇幅来详细介绍。即使没有 
办法在所有情况下提供统计分析的正式工具，但在某种形式上，所有赋值方法 
都应有不确定性的估计。若无法得到不确定性 ，一 个包括模糊集合技巧的分析 
将是不完整的。我们将着重说明两个案例。第一个例子使用的是敏感性测试， 
这个例子用的是4个度量上的单一判断数值组合而成的测量。这种战略是有用 
的，因为它可以被运用于任何情况，即使是单一判断得到的直接数值也行。第 
二个例子是在把录得的附加数值投影到单位区间之内时，用自举抽样法对归属 
赋值逐点提供误差值。然而，我们应该留意的是，任何赋值的技巧都内含误差。 
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如果我们使用一个多元指数测量模型，如最大拟似因子分析或者多重项目反应 
理论的技术，当然就可以对赋予数值计算出信赖区间，这个数值也可以转换成 
归属值的信赖区间。就算是某些直接诱导方法，如“回旋梯法”，也能产生不确 
定 性估计 （Tversky Koehler, 1994)。 


敏感性瀾试 


对一条归属函数的测量提供精确性的方法之一是运用敏感性测试，这是一种 
实验设计，用来显示输人时的干扰为结论带来的可能差异 ( Sahelli，Tarantola 
Campolongo , 2000)。在没有其他不确定性估计的来源(例如，多重测量或者包 
括多余信息的数据收集策略)时,这种方式特别有用。如果归属值有某种来源， 
比如某专业判断，那么，敏感度测试就能够为假设使用这些评价后产生多少不 
确定性提供一个大致的概念。我们将着重讨论一个专业评价下的归属值，不过 
这并非此技巧唯一的运用方式。相对于多种指数值，阐明一种给归属赋值的指 
数函数的敏感性也很有价值。 

敏感度测试的基本构想是阐明当我们考虑不同的输入方案时，输人某个特 
定的数值将会对结果造成多大变异。假定以一次既定评价为基准，一个评价或 
许系统性地偏高，另一个评价或许系统性地偏低。在接下来的应用案例里，我 
们不会有这些评价，但我们会模拟之。在多数归属赋值的任务中，从基准来看 
评价误差有4种选项：（1)系统性偏向 0( 严苛认 定）； （2) 系统性偏向 1( 宽松认 
定）； （3) 朝两个终端偏误(极端认 定）； （4) 朝中立点偏误(模糊认定）。 

表 3. 2列出了系统性修订这些赋予归属值的4种偏误类型的几种常见的转 
换方式。将这些转换方式应用到基本的归属赋值，我们就可以用标准描述统计 
来产生逐点的柱状误差 范围。 但必须小心，真正的评价从来就不是一致的，所 
以有些随机误差是正常的。同样，我们也不认为表 3. 2中列出的转换方式就是 
必然的做法。转换方式必须依据特定问题来打造，更重要的是，作为基准的评 
价很可能既不可靠也不有效，所以，敏感度测试也不是真正研究可重复性的替 
代品。然而，在可重复性不存在时，敏感度测试提供了一种获得不确定估计的 
手段。 
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与基础相比/附注 

与原来相同 

系统性趋近0,严苛认定 

系统性趋近1，宽松认定 

系统性趋近两终端， 

极端认定 

系统性趋近中立点， 

模糊认定 

将两终端挤进 （0, 1) 以便 
运用其他转换方式 

用来还原间距，将终端扩张 
到[0, 1] 外以裁减极端值 

对 m 的效果 

对是=1;所有转换都变 
成身份 

使所有 [0, 1] 间归属值偏 
低，终端不变 

使所有[0, 1] 间归属值偏 
高，终端不变 

数值 >0. 5渐大， 

数值 <0.5 渐小，两终端 
与 0. 5不变 

数值 >0.5 渐小， 

数值 <0.5 渐大， 

两个终端与 0. 5不变 

将归属值重设于[«/2, 
l — M /2], 系统性挤近 0. 5 

效果与挤压相反 

潁 

班 


是>1，常为2 

是>1,常为2 

是>1，常为2 

k > l , 常为2 

00<1， 
常为 0. 05 

与挤压相同 

鋇 

聞 

identity ( m ) = m 

cone ( 772 ) = m 2 

dil ( m ) = m A 

( km 2 {m <C 0. 5) 
cintens(m) = ^ 0. 5 (m = 0. 5) 

^1 — ^(1 — m ) 2 {m 0. 5) 

cdiff ( m ) = 2 m — cintens ( m ) 

m = squash ( m ) = 0. 5 m + (1 — u)m 

expand ( m ^ = {.m — 0. 5 m )/(1 — u ) 

转换方式 

0. 身份 

i . 集中 

2. 扩散 

3. 相对密集 

4. 相对分散 

5. 等距挤压 

6. 等距分散 


料<<琏壏 S 昍擗刮 Is 毎韬頦 m .£« 


模糊集合理论在社会科学中的应用 


案例 3. 2:选举民主指数的敏感性分析 

民主程度指数数不胜数 (Munck & Verkuilen , 2002)，其中之-选举民 

主指数 (Munck & Verkuilen , 2003； UNDP , 2004) ，正是以模糊集合为基础的。 

选举民主指数是一个从4个成分得到的组合指针，每个成分都来自专业评 
价。这4个成分是普选权 ( S )、 执政权(0)、自由权(尸与清廉权 ( C )。 S 指所有成 
人都有投票权， O 指有决策权力的官员(行政与立法)都必须被选举， F 指组织政党 
竞争与结社的自由， C 指计票公平且选举过程不被操纵。这些指标的赋值是由一组 
严格界定的编码规则进行的。我们将在第6章讨论这些成分如何组成前述指标^ 

为了让终端通过转换公式趋近，我们用表 3. 2里《 = 0. 05的转换公式将所 
有评分等距挤压进 [0. 025, 0. 975] 的范围内，完成后，我们又把数值扩张回 
[0, 1]，此时，任何不被允许的数值，如 1.05 或一0.1，都被裁减进此范围。我们 
也用表 3. 2的转换公式去调整所有成分的基本计分，原来是根据为5 4 个因素分 
类，也就是由625项不同评价的组成转换而来(其中之一是基本评价）。这项设 
计是将依赖不同成分且各有不同偏误的专家评价扩展开来。例如，某个评价可 
能是对 S 的严苛认定，但在0方面却是宽松认定，并且 F 与 C 只适用基本评价。 
我们用定序统计来产生柱状误差范围。图 3. 2使用了 5%与95%的误差，显示 


1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 
年份 

-- a - - q (0. 05) — o —选举民主指数 x q (0. 95) 

图 3. 2巴西选举民主指数值之误差干扰 
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了 1960年、1977年、1985年以及1990年至2002年间，巴西实际选举民主指数 
值的可能范围。这些柱状范围包含了 90%的模拟数值。由于上述误差范围是 
根据定序统计而来，与平均值拥有标准误算出的置信区间不同，所以它们并非 
总是系统性的。 


测试转位与自举抽样 


在归属程度依据样本估计而来(例如，分位点转换）的情况下，归属函数两 
侧的柱状信赖范围是可以估计的。另外，自举抽样也是一种代替品 （Efron 
Tibshirani , 1994)。自举抽样是从原始数据库中抽出替换样本，并且可以随意 
重生无限多的数据库。然后，新的分位点与标准差就可以用常见的统计程序来 
运算。无论用哪种方式，把归属函数当成随机变量是与置信区间取向相容的。 

案例 3. 3: 模糊集合“暴力犯罪倾向”命题的信任带 

以下范例是根据“全美逮捕”数据库中 R 统计软件内含的样本所计算的暴 
力犯罪统计而得来。我们不讨论细节，但鼓励读者尝试自行分类。相关样本汇 
集了 1975年度联邦调查局 ( FBI ) 收集的美国50个州的3种暴力犯罪——谋杀、 
强暴与伤害——的逮捕报告数据。我们希望创造一个模糊集合，称之为“暴力 
犯罪倾向”，简称 “ VCP ”。 

首先，我们定义暴力犯罪指数为3种犯罪率(谋杀、强暴与伤害)标准评分的 
平均数。我们认为这样做有两点站得住脚。第一，虽然谋杀比强暴少得多，强 
暴又比伤害少更多，但罪行的严重性使得它们等量齐观仍有道理。我们调整过 
原来3种成分数值之变异量的标准评分，不像联邦调查局的未加权犯罪指数，后 
者仅是逮捕数据的加总，忽视了罪行的严重性，结果把谋杀跟伤害混在一起。 
第二，两个指数的相关系数是 0.56 或者更高，因此，依据可信度理论的传统，我 
们的估计方式是合理的。暴力犯罪指数的平均数被调整为0,同时，我们将标准 
差标准化为1。我们用方程 3. 3,即累积分布函数去创造归属值。请注意，由于 
没有真正的0值，也就是没有无暴力犯罪的州，因此，这个赋值会创造出一个低 
于常态的模糊集合(选择一个更低的截点就可以使集合常态化）。 

为了获得犯罪统计所带来的不确定性，我们用两种不同的技巧 ，一 种是根 
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暴力分布指数 

图 3. 3反向 Kolmogorov - Smimov 测试与自举抽样方法之误差 


据经典统计测试，另一种是根据自举抽样方法。首先，我们用反向 Kolmogorov - 
Smimov 测试去创造累积分布函数的柱状置信范围 （ Conover ， 1980)。这种测 
试被认为缺乏效率，并且能创造出比较宽的置信区间。其次，我们从50个原始 
数据里产生1000次自举抽样样本，每个样本从小到大排序，50个州的归属值评 
分为 <70. 025与 ㈧ . 975。最后，从每个评分的集合中算出一个累积分布函数， 
q 0 . 025符合上区间而 </0. 975符合下区间。 

图 3. 3显示了两个集合的置信区间。请记住，自举抽样获得的信任区间远 
小于反向 K - S 测试。测量抽样误差对后续分析的影响，在计算过程中将取代归 
属值上下两端的估计并且阐明结论将如何变化。 




第 4 章 I 模糊集合的内在结构与特质 


过去30年来，多学科的发展已经证实了内在分类结构分析的潜能。从20 
世纪70年代开始，认知心理学家持续认识到，自然认知的分类拥有复杂的内在结 
构，某些心理学家对心理学理论的范畴提出了类似的看法。布若顿 ( Broughton , 
1990) 认为，模糊集合对个人心理学研究的组织与评估，尤其是对个人评估工具与 
改进异常症状很有用。赫若维兹与马卢则认为，“忧郁”应该被当成一个模糊概 
念 （Horowitz &■ Malle , 1993) ，就像瓦特豪斯、文与费恩 （ Waterhouse , Wing &• 
Fein , 1989) 对自闭症以及薄瑞许对心力交瘁症的看法 （ Burisch , 1993) — 样。 
此外，社会科学家也开始在他们的理论与研究框架里持续强调分类的复杂性与 
易变性。例如，拉津将拉扎斯菲尔德对“特质空间”的概念加以概括，形成了多 
个延伸命题 ( Lazarsfeld ，1937) ，从原先的清晰集合推向了模糊集合的版本。 

由于清晰集合里的归属程度被限定在0与1之间，我们对它们的内在结构 
也就无可置喙。通常面对绝对的(成员数量)或相对的(例如，与其他集合比较) 
集合时，我们局限于讨论集合的势(规模）。然而，介于之间的归属程度能使我 
们对分类结构提出许多新的观点并加以分析甚至量化。这些观点可以与社会 
科学里的许多有用的概念连结起来。在这一章中，我们将从对模糊集合的势的 
简短回顾开始，然后探讨模糊集合的概率理论，最后阐明如何测量一个集合的 
模糊性。 


集 势:模 糊集合的总量 


相对于清晰集合，模糊集合的集合规模或势的概念既丰富又有问题。它较 
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为丰富，是因为如我们将讨论的，我们将使用多种 集势； 问题则主要出在对归属 
规模的测量方式上。 

数值势是对经典(清晰)集合的一种概化。对一个可量化的归属比率（即无 
论是绝对值还是一个比值）而言，数值势是归属程度所有元素的加总。对任何 
量化的变量而言，这是评价的加总。然而，与多数量化变量相比，对集群的势的 
解释，使得加总的概念与集合规模的关联更为密切。对数值势性质的解说将澄 
清这一点。我们令 IA | 代表 A 集合的数值势，将之定 义为： 

N 

| A 丨= [4. 1] 

/ =i 

« M ( XO 是心' 在集合 A 内获得的归属程度值。设 A 的补集的归属值 
m ^ A ( Xi ) = l - m A ( Xi ), 根据势的必然性， | A | 就服从下列性质:（1)对任何集 
合 A 或集合 B 而言，对任何一个事物 f ，若 m B (XO < ( Xi ) ，则 | B | < | A 丨。 
(2) | 〜 A |= iV _| A |。也就是说， A 的集势与其补集加起来是 iV 。（3) 对任何 
集合 A 或集合 S 而言，丨 A U B 1 + 1 A H B | = | A 1 + | B | 。也就是说，两个集 
合的并集与交集的势加起来，等于两个集合的势本身相加。 （4) 对任何集合 A 
或集合 B 而言，数值势的直积定义为 | AXB |= 若 A 与 B 

在统计上互相独立，则 | AXB | = | A | X | B | (但反之不成立）。 

数值势可以被转换成比率势 ， BP II A || =| A 丨 / iV 。 其性质与概率类似，前 
三条规则与概率的性质相同，但第四条规则缺乏概率的反之亦然 特性： (1)0 < 
II A || < 1。 （2) 对所有 z _， 当且仅当_(沿）= 0时， || A || = 0；当且仅当 
m A { Xi ) = 1 时， || A || =1。 （3) 定义 || A &- B || =| AXB | /N 与“条件”势 
II A I B || = || A &• B || / || || ，我们可以得到 || 〜 A 丨 B || + || A 丨 B || = 1。 

(4) 若 A 与 B 在统计上互相独立，则 || A &- B || = || A !| X || B || (但反之不 
成立）。 

然而，比例数值势还在其他方面与概率的性质大不相同。例如， || A | A || < 
1，但尸 (A I A ) = 1； || A |~A || 彡0,但 P(A I 〜 A ) = 0。 这两个偏离概率的 
性质都是因为中介归属值未必互斥而且加起来不必然等于1，但概率必定如此 
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的缘故。当然，对清晰集合来说，比率数值势就等于概率。 


等距层次测量的集势 


当归属值不是一个绝对值或者比率时，数值势就会出现很大的问题。让我 
们先从没有完全归属或非归属基础值的等距归属值为例来说明之。与比较任 
何等距数值的平均数一样，我们仍然可以比较这类不同集合的“规模”。然而, 
此处势本身的意义就不清楚了，因为数值势的性质 (2) 与性质 (4) 及比率势的性 
质 (1) 、性质 (3) 与性质 (4) ，并不符合归属值线性转换的规律。 

然而，如果我们有一个完全归属与非归属的区间值，这多数性质就可以被等 
距评价所克服。典型的例子是，当我们用一个截点来决定一个分类里的最小合格 
归属值，而该分类的等距评价也有一个上限时，这就使得原先的数据适用于线性 
过滤法。 

令 X „ 为非归属值的区间值而 X /为完全归属的区间值，若对任何介于 X „ 
与 X f 之间的 X 值⑼ A ( X ) 是一个 X 的线性函数，那么，我们就可以定义一个新 
的归属函数并且获得 II A ||值： 

m* A ( X ) = ( X - X „)/( X /- X „)( X n < X < X /) 

= 0( X < X „) [ 4 . 2 ] 

=1( X > X /) 

所以，如前所述，我们可以得到 || A II = J ^( X 、/ N 。 

案例 4. 1:攻击性行为评分 

研究者抽取了 89个8岁到14岁儿童的样本与被介绍到精神科诊所的另一 
群儿童的样本，对其儿童行为评价表 ( CBCL ) 的攻击性行为分项评分进行比较。 
CBCL 的攻击性行为评分是由父母亲所记录的过去6个月内，儿童产生打架、争 
吵与其他类似行为的频率，其数域在0到40之间，这个评分有一个20分的“就 
诊底线”。 

图 4 . 1的上图呈现的是线性过滤的过程。19分以下是完全非归属的底线 
截点(所以，20有一个较低程度的归属值），而30是在此模糊集合里“就医程度 
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20 

CBCL 攻击性行为 


30 


40 


0.0 2.5 5.0 7.5 10. 0 12. 5 15. 0 17. 5 20. 0 22. 5 25. 0 27. 5 30. 0 32. 5 35. 0 
CBCL 攻击性 

口 未就诊 □介绍 

图 4.1 就医与一般样本之 CBCL 攻击性分配 

我们使用20的就诊底线定义“就医程度攻击性”的清晰集合。在89个一般 
样本里，有2个在这个集合内，而被介绍就诊的89个儿童里，有22个属于这个 
集合。另一方面，如果我们用线性过滤法定义这个模糊集合，那2个超过就诊底 
线但没有被介绍到诊所的儿童的归属值就不是0,而是 0. 09与 0. 18,集势只有 
0.27。然而，被介绍就医的群体包括高攻击性的儿童，集势高达11.93。这两个 
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集势之间的比值是 44. 19(11. 93/0. 27)，与清晰集合运算得来的 11(22/2) 相去 
甚远。把集合内“就医程度攻击性”儿童的归属程度纳入计算，可以在维持个数 
计算的概念外，凸显两个样本之间更真实的差异。 

定序层次测量的集势 

等距层级取向的算法可运用于任何包括等距分层信息的潜在变量所衍生 
出来的定序评价。例如第3章里所提到的，我们可以用定序变量去建构 Rasch 
评价。如果我们希望将这个评价转换成对应的归属值.则可以按照前述方法建 
立数值势。 

即便是完全定序的评价，我们通常仍可以获得关于势的有意义的命题。在 
任何模糊集合中，最模糊的差异就在该集合的非归属、可能归属与完全归属者 
之间。可能归属建立了集合的模糊核心。例如，一组数据中有120人自称是“未 
吸烟者”，另有 20 个“已戒烟者”、 40 个“尝试戒烟者”与 30 个“吸烟者”，模糊核心 
就是 20 + 40 = 60 个人，吸烟者数目的下限与上限分别是 30 与 20 + 40 + 30 = 
90 人。 

如果我们将模糊核心的分类在那些较偏向归属与较偏向非归属成员之间 
作出区别，那么会使得集势的上下线缩小。假设我们决定，“已戒烟者”比较接 
近非归属成员（〈1/2)，而“尝试戒烟者”比较接近归属成员 （> 1/2)，则吸烟 
者的下线与上线就会变成 50 人 （1/2 X 40 + 30) 与 80 人 （1/2 X 20 + 40 + 30)。 


模糊集合的概率分布 

在本节中，我们在模糊集合在因变量上扮演重要角色的例子上运用统计学 
模型的概率分布函数 ( PDFs )。 我们把重点放在多变量分析技术可行的那些概 
率分布函数上。对模糊集合来说，一般化的概率分布函 数是： 


/( w ) = />o A (0) + △(!■) + (1 — po — pi ) g (, m ) 


[4. 3] 
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P 0 是非归属者的概率，/>1是完全归属者的概率， AOn 〉 是在单位 W 时的单位脉 
冲 ， g ( w ) 是一个密度在(0, 1) 区间之内连续的概率分布函数。当完全归属与非 
归属本身很重要时，这个混合的分布可以导岀有用的模糊集合统计 模型； 即便 
当两者不重要时，建模者只要注意单位区间里0到1之间的两个终端即可。很 
明显,正态之类预设的假定对模糊集合来说无法成立。最可行的出路包括受检 
分布、截断分布与贝塔分布。 

受检分布是指一个以上的次级范围的密度被压缩到一点的分布。由于我 
们缺乏关于研究变量的知识，所以经常导致受检分布 （ Long ， 1997:187)。当模 
糊归属函数是对一个已知或已测得的分布进行过滤所得到的变量，其结果就是 
受检分布。例如，有一个平均值为100分而标准差为15分的常态分布标准智商 
测验结果，如果我们定义有一个模糊集合的群体为“具备学习 X 技能潜质”，这 
是个非归属底线为85分而完全归属为100分以上的线性过滤函数，则 /( w ) 就 
可以写成 下式： 

f ( m ) = (0. 1587) A (0) + (0. 5) A ( 1) + (1 - /^o - )^( m ) [4. 4] 

多 ( w ) 是常态概率分布函数，且 m = max (0, mind , (IQ -85)/15)), 这个概率 
分布函数在 0 时有个 0. 1587的突起，而在1那端则是 0. 5的突起，0与1之间的 
m 那段是正态的概率分布函数。 

截断分布由部分概率分布函数导出，且以该曲线在某区域的切割内再常态 
化之后构成。当研究者处理一个集合之非归属者与/或完全归属者被排除后的 
次群体时，截断分布可以运用到模糊集合的样本上。例如，有一个将16岁以下 
的成员都赋予非归属值0的“年轻成人”模糊集合，这个模糊集合的概率分布函 
数就是从总体中选出一个没人低于16岁的样本，这样就可以用截断分布来给因 
为归属值为0而被截的数据建模。 

在多重线性回归里，为受检或截断的因变量建模的方式已经发展成完善的 
模型。这些模型多数是从 tobit 模型变化或延伸而来，在第6章中，我们也将提 
供一个运用 tobit 模型的例子。 

最后，对模糊集合来说，有很多既非截断，亦非受检分布的状况。如果研究 
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者想把单位区间内靠近0与1两端但是却非0或1的那些数据化到两端（以避 
免无法界定的切分点），贝塔分布就是一个敏锐且有弹性的候选者，我们将在此 
简要描述贝塔分布。对某些模糊集合，我们称其为 “ Betab ， r ) 分布” 是指： 

/(m) = 1 (1 — m ) r ~ 1 T ( a > + r)/[r(a»)r(r)] 

a ,, t >0 且 r ( •) 指的是伽马函数。 w 与 r 两者都是造型指数，其中， a ; 把密度拉 
往0而 r 把密度都拉往1。贝塔家族包括很广泛的造型变化，单一分布就是其 
中一个特殊的例子。贝塔分布是以 0. 5为中心对称性的，也就是 f ( m ； cv , r ) = 
fa - m ； r ), 因此，模糊否定完全不影响这个分布。为了与其他区间定义的那 
些贝塔分布作出区分，以单位区间来定义的贝塔分布通常被称为“标准化贝塔”。 

由于 a < 与 r 是很难诠释的造型指数，所以贝塔分布常用的指数化对任何意 
图来说，都是不恰当的。然而，有一种著名的、将 co 与 r 转换成定位与离散指数 
的再指数化，使得多变量一般线性模型可以用来估计有定位与离散数值的贝塔 
分布因变量 ( Paolino , 2001)。对这些模型的批注已经超过了本书的范围，但我 
们必须清楚，多元一般线性模型技巧对贝塔分布之模糊集合应变量的运用是可 
能的。 


定义与测量模糊性 


广泛地说，一个模糊集合之所以较模糊，是因为很多案例里有中间的归属 
值，而之所以较不模糊，则是因为有很多属于0与1的归属值。标准的模糊集合 
理论对模糊性的定义是说一个集合最模糊时，其中所有元素的归属值都等于 
1/2,而一个集合完全清晰时，其中所有元素的归属值非0即1。在社会科学里， 
模糊性可以与下列概念 相关: 两极化、共识、相对变异性、分类法、集中化以及不 
平等。企图建构这些特质的测量方式的相关文献已经运用了模糊性的测量，并 
且这些对如何测量模糊性的讨论也丰富了理论性的争论。因此，在许多学科 
中，对模糊性的测量观点常与重要的概念相关，而研究者也常常发现模糊测量 
的用处很大。 
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在此，视觉模拟可能对我们有所帮助。在固定光源时，如果使用黑白像素， 
相片的对比是最 大的； 而灰阶像素与中间渐层是最模糊的。模糊性就是对比的 
反面。如果用概率分布函数的传统认知来理解模糊性 ，一 个最清晰集合的归属 
值的概率分布函数将会出现在0与1两端的双峰，而最模糊集合的归属值概率 
分布函数将会出现在1/2的单峰曲线。 

模糊性集合 A 的测量 / mz ( A ) 的标准如下 （De Luca &- Terrain , 1972)： 
( l )/« z ( A ) =0,当且仅当对所有 X ， mA ( X ) =0或1。 （2)/ mz ( A )= 最大值，当 
且仅当对所有 X ， m A ( X ) = 1/2 0 (3)/收(八）</«之（扮，对所有；^，当7^(；0< 
1/2时 , mA ^ X ) ^ wb ( X ) ;当 》 2b (< X ) 〉1/2时，/ wa ( X ) ^ ms ( X ) 0 (4) fuz { A ) 
-- /mz ( 〜 A) 。 

在模糊集合文献中，已经有研究者提出好几种模糊性的测量方式，在史密 
生的作品里有过描述与比较 （ Smithson ， 1987、1994)。以集势来说，我们在何 
种程度上能够有效量化模糊性取决于对归属评价的测量程度。就如我们已知 
的，模糊集合文献的弱点之一是，其往往假设归属评价是一个绝对值(或者至少 
是个比率），这也反映在已经被发展出来的模糊性测量上。我们将简单介绍模 
糊集合文献里常用的模糊性测量，然后探讨对社会科学数据来说，更普遍有用 
的另一种方法。 

最简单的模糊性测量是由考夫曼 （ Kaufmann ，1975) 提出并被史密生 
( Smithson , 1987: 112) 以样本规模加以标准 化的： 

FK = (1/ NH )2 I mA , -mh \ [4. 5] 

当 ma •是集合 A 里第；个元素的归属值时，= 1,当且仅当> 1/2且 

= 0时。此外， N 是样本规模，且 H = 1/2是上述加总的极大可能值(当对 
所有/来说， wa , = 1/2时，则该集合模糊性是最大的）。这个系数就是以第 t '个 
归属值与其最“不模糊”的邻近断裂归属值0或1的对应点之间差异的平均绝对 
值，去除以最大可能差异。因此，它测量的是模糊集合与可能最接近的清晰集 
合之间的差异，如果两者没差异，当然模糊集合也就不模糊了，那么 FK = 0。 

在模糊性与缺乏对比之间的指数建议我们用一个集合与其补集的归属值 
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之比较来测量模糊性。最近模糊性系数的其中之一正是如此 （De Luca &- 
Termini , 1972； Smithson , 1987 : 112) : 

FD = (1/ NH ) 2 [— rnM \ n{mAi ) — (1 — ) ln(l — wa : )] [4. 6] 

当 H =- ln ( l /2) 时，加总值将达到最大。该式测量了模糊归属值里不确定信 
息的量。这个二进制的模糊性测量与信息理论对平均信息量的测定有关。当 
所有 wa •非0即1时 ， FD = 0;若所有 mA •是1/2, FD = 1 0 

最后，模糊性与不平等的关联使得史密生建议模糊性的测量可以为与平均 
值相比的相对变异性奠基，其主要的灵感来自当所有成员归属值都是相同程度 
时，无论其数值是否为1/2或任何其他数值，模糊集合都无法区别其内在元素。 
相反，若归属值被限定为0与1，则对所有给定的平均值来说，此时变异数都是 
最大的。因此，模糊性与变异数成反比。当然，并非所有使用模糊集合的研究 
者都同意这个论点，他们也可能坚持用1/2作为固定的指标。 

有研究者为相对变异数测量的观点界定了两个使用时须满足的先决条件。 
首先，它们在向量相乘时应该保持一致(适用于比率评价的变量）。第二，它们 
应该“对转换敏感”，即当某些数值从较低价值的元素转换而来又与较高价值的 
元素相加时，性质较佳 ( Allison ， 1978)。基尼系数、变异系数与信息理论变异系 
数都满足上述条件。史密生 （1982 b 、 1987:113— 116) 论证，这些系数应该以可 
达到的极大值来加以标准化。 

相对变异测量在向量相乘时是一致的,而公式 4. 5与公式 4. 6所呈现的模 
糊测量也可能被一般化而在特定条件下处理比率评价。不幸的是，其中没有一 
个适用于等距与定序的归属评价。然而，某些简单的技巧使我们得以测量这类 
评价的模糊性。 

模糊性的累积分布取向 

我们介绍测量模糊性的方法或许可以运用于任何归属值，只需区分非归属 
者、近乎非归属者、近乎完全归属者以及完全归属者即可。就像早先比较集合 
规模的分析，这个取向几乎可以广泛运用于各种评价方式。 
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根据考夫曼 ( Kaufmarm ，1975) 的建议，实证上的累积分布函数可以与最清 
晰集合的累积分布函数比较，以提供模糊性的一种指标。这两个累积分布函 
数越是相似，集合的模糊性就越少。通过累积分布函数的运用，我们避免了 
必须将归属程度量化的那一步.所以就可以把这个方法运用到定序的归属评 
价上。 

现在，我们需要的是一个比较实证累积分布函数与最清晰集合的累积分布 
函数差异程度的测量方式。有好几种方法，但为顾及简化与运用的广泛程度. 
我们就使用 Kolmogorov 拟合度统计 ( Conover ， 1980； D'Agostino Stephens , 
1986) 。令 FCma , ) 代表一个样本里归属值实证上的累积分布函数. F ( C A ) 代表 
最清晰集合的累积分布函数，则 Kolmogorov 拟合度就是 F ( WA ,) 与 F ( Ca ,) 之 
间差异的最大绝 对值： 


T ( A ) = sup ; I F ( m A ) - F ( Cm ) \ [4. 7] 

令•代表原来评价非归属者的截取值，/^代表在近乎非归属者之下但是在近乎 
归属者之上的中间范围评价，6代表完全归属者的截取值。由于 F ( Ca ) 是个梯 
级 函数： 


F ( C a ) = F (/0( 对所有<完全归属者而言） 

= 1( 对所有=完全归属者而言） [4. 8] 

7 XA ) 不是在 s 发生，就是在6发生。因此， 7 XA ) 仅依赖于累积分布函数中 . s、 /I 
与 b 的数值。 

令 FG ) 为仅包括非归属者的实证累积分布函数的数值，令 F (/0 为包括 A 
以下非归属与中间归属者的累积分布函数数值，而 F (6) 为除了完全归属者以 
外，所有个案的累积分布函数数值， 则有： 

T ( A ) = max [ F (/ i ) ~ F ( s ) , F ( fe ) — F (/ i )] = max [ P s * , jPas ] [4.9] 

是中间归属个案较接近非归属者的比例， Pm 则是中间归属个案较接近完全 
归属者的比例。 


图 4. 2显示了这个图像。从了 ( A ) 的基础来说，可以被视为一个由 F ( m A ) 
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与 F ( Ca ) 之间比较得来的4类概率分布函数，图的上半部分显示了非归属者 
( OT )、 中间归属者(^， TO ) 与完全归属者的比例 (7 T 1)。 归属程度的截点 （ s、A 
与 6) 在图上用不同比例个案与其邻近类型的边界来表示。 

0 s h 6 1 


清晰 模糊 

1 TTsA Ttsh TChb 

图 4. 2 T(A> 的累积分布函数基础 

很清楚，若 T ( A ) = 0,则 A 是清晰集合。 T ( A ) 有极大值为1，包括累积分 
布函数完全集中于一点或者在非归属者与完全归属者之间的范围。这与史密 
生所定义的最大模糊性相应 （ Smithson ，1982 a )。 同样， 7 X 4) = 7 X 〜 A )。 最 
后，对所有 X ，当且 仅当卿 （ X )< l /2 时，或当 _( X )> l /2 
且， 《 A ( X ) 时，则 T ( A )< T ( B ) 0 因此， T ( A ) 满足了模糊性测量的4 

个必要性质。 

如之前提到的，这个对模糊性的测量几乎可广泛运用于各种评价方式。对 
任何两个归属值的评价，只要有非归属者、完全归属者的条件，再加上中介归属 
值是比较接近非归属者或完全归属者的判断，则它们的 TXA ) 值就可以不需顾 
虑任何评价程度的测量性质而直接进行比较。 

案例 4 . 2:贝氏忧郁量表 

贝氏忧郁量表 IKBDI-IIKBeck &- Steer , 1996) 是一个有21个项目的测量 
忧郁程度的工具，其区间从0分到63分，用来作为忧郁程度参考的截点如下:0 
到13为最小、14到19为轻微、20到28为中度、29到63为严重。我们设定 s = 
13. 5, h = 19. 5, b = 28. 5„ 

假设我们有 128 个受测者的 BDI - II 评分，我们用数值 s 、 h 与 b 比较了 


) 与 F(Ca, ) ，就像在图 4. 3 中所显示的，其结 果是: 
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.400, 


4 8 12 16 20 24 28 32 36 40 44 48 52 56 60 64 
BDI -II 数值 


•模糊 


f 晰 


图 4. 3 F ( m A ) 与 F ( C A ) 的贝氏忧郁量表 II(BDI-Il) 数据 


F ( s ) = 59/128 = 0. 461， F (/ i ) = 92/128 
= 0. 719, F (« - 110/128 = 0. 859 

因此，我们 得到： 

Po = 59/128 = 0. 461, p sh = F ( h )- F ( s ) = (92-59)/128 = 0. 258, 

Phh = F ( b )— F ( s ) = (110 —92)/128 = 0. 141 
Kp\ = (128 —110)/128 = 0.141 

TC 4) 的样本测 量为： 

T ( A ) = max [/?. s 7i » phh ] = max (0. 258, 0. 141) = 0. 258 

r ( A ) 信任区间与显著性测试 

运用图 4. 2上半段里第二行的三分类表来重新安置概率分布函数，我们可 
以得到 TXA ) 的置信区间与显著性检验。这一格区分了完全归属/非归属的清 
晰个案与中间归属值的模糊个案。集合的模糊核心部分的规模等于中间归属 
格子的加总， 7 T .4 = TTv/j +7 TM 。 
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开始时，我们可得到一个咖的置信区间 （ CI ) ，模糊核心的规模以常见的比 
例形式，可能是精确或趋近的数值。此外，多向频率分析的传统方法也可以应 
用于比较不同集合之模糊核心的规模，或是跨集合数据的建模。我们定义;^ 
的置信区间为 [ TTsW - ， TCsbulo 

同样，我们也可以获得;^及平行独立的(1-«)^100%置信区间。然 
后，我们又可以定义 T ( A ) 的 (l-a)lOO% 置信区间。其下 限是： 

KshL (TUhL / TCsbL ^ 1 / 2 ) 

7ThbL iTZhbL / TZsbL > 1/2 ) [ 4 . 10 ] 

^ l /2( 其他情况下） 


其上 限是: 


nshuirtshU/n s bV >1/2) 
nhbU iithhu/Tt$bU ^ 1/2) 
maxCKhbU » 1 — Tc s hL ) (其他情况下) 


案例 4. 3: 贝氏忧郁量表 （续） 

回顾案例 4.2, p sh = 0.258 与 Phb = 0. 141, 所以测量样本得到 T(A) = 
may^_psh » phbl = 0.258 。 从模糊集合开始，我 们有九 & = (33 + 18)/128 = 
0. 398, 且； r s6 的 97. 5% 的置信区间应为 [0. 3071, 0. 4975], K S h 的 97. 5% 的置信 
区间是 [0. 1815, 0.3525], 与 7 TA * 的 97. 5% 的置信区间是 [0.0853, 0.2231 ]。 从 
公式 4 . 8 可知，: T(A) 的置信区间下限是 0 _ 1815, 上限是 0 . 3525 。 当下限与 0 显 
著不同时，上限表明，这个集合是最温和的模糊。 



第 5 章 I 模糊集合之间的简单关系 


交集、并集与包含 

本章重点讨论模糊集合理论所提出的3种争议性的特殊元素关系，这些关 
系对双变量关系(例如，相关系数或发生比率）的家族来说是陌生的成员。这三 
者就是模糊交集、并集与包含。就像第2章里解释过，在模糊集合 A 与集合 B 
的交集与并集里，评价归属值 x 的传统规 则是： 


WAf)B(x) = min(wA (x) , mfi(x)) 

w ^ AUB ( x ) = max(mA ( x ) , mB (: r )) [5. 1] 

此外，从模糊集合 A 包含模糊集合 B (A 3 B ) 导出的规则是对所有 i 而言， 

5? mB ( jc ) [5. 2] 

与相加不同，交集与并集的运算不是互补性的，但相加却是。例如，对公式 
5. 1来说，对于任何一个 X ，我们可以看到 A f | 的归属值 wAnB ( jr ) 里， A 集合 
里一个高归属程度的 wa ( x ) 并不会与 B 集合里较低归属值的 wbO ) 相加。包 
含的概念也跟相关系数不同，这同时由前者非对称的性质（即 A 包括 B 的程度 
无法告诉我们 B 包括 A 的程度）以及必要与充分的逻辑概念在其中的直接关系 
而造成。 

就像第3章里提到的，评估交集、并集与包含的必要条件之一就是性质评价 
(例如，日本是“亚洲国家”相对于“资本主义经济体”，是否有更高的归属程度）， 
因此，当我们处理模糊交集或者包含的评价技巧时，应该不只是留意测量的程 
度，也要注意性质评价。然而，在这一节余下的部分中，我们将讨论可以合理假 
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A =澳大利亚应该允许移民进入 


设两个性质评价的明显案例。史密生讨论了更多例子的细节 （ Smithson ， 
2005) 0 

案例 5. 1:对移民的态度 

模糊集合包含是清晰集合包含的一般化，虽然公式 5. 2很少完全满足，但在 
很高程度时可以找到真正的例子。图 5. 1显示了这个例子，在84个澳大利亚国 
立 大学二年级的心理系学生中，受访者对下列命题 A = “澳大利亚应该容许移 
民进入”以及 B = “应该允许船民进人澳大利亚并且批准他们的要求”评分，在 
AZDB 的关系中只有3个例外，显示在图的右上方。 

这个例子显示了交集、并集与包含的重大关联。若 AIDB ， 则 A n B 等于 
最小集合 A 或集合 B ， 且 A U B 等于两个之中的最大集合。在图 5. 1中，我们 
可以看到 ， A C \ B 的归属赋值将是 mAnB (* r ) = msO )， 除了 _( x ) = 1且 
m A ( x ) = 5/6的3个个案是例外。此外，我们也可以看到除了前述3个例外， 
A \J B 是 mA U B ( x ) = tt2a ( x ), 归属值的分配越是接近 A 或 B 的最 
小值， A 与 B 之间的关系就越接近于真正的包含关系，归属值 mAUfi ( x ) 的分配 
与 A 或13的最大值之间的关系亦然。当然，交集与并集的计算必须依赖性质评 
价，如果没有充分的理由，简单地假设性质评价可以维持的做法并不理智。我 
们认为，此处尚可接受是因为每个项目的响应评价与项目本身的形式是一 
致的。 
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图 5.1 模糊集合包含的例子 
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图 5. 1的例子同样强调了模糊包含与必要性及充分性的逻辑观念之间的关 
联。图 5. 1上的位图呈现了一个预测性的解释是，集合 A 中较高的归属值对集 
合 B 中较高的归属值的预测，是必要但不充分的，反之，集合 B 中高的归属值对 
集合 A 中较高的归属值的预测，是充分但不必要的。这些不对称的逻辑或预测 
关系不可能由对称的关联性测量，例如由相关系数来获得。对于图 5. 1显示的 
趋势用相关系数 0. 299来解释，当然会错失这些重点，即使指出其中有异方差性 
也于事无补。 

最后•值得一提的是包含、必要性与充分性是一个更广泛且有用的关系，是 
模糊限制中的特殊化的例子。对图 5. 1的第三种解释是, A 与 B 的共同分布几 
乎直接满足不等式模糊限制是这类不等式的一般化。 

案例 5. 2:揭露或限制信息的决策 

在一个职业调查中 ( Bopping ， 2003)，有229个受访者被告知一个揭露或限 
制由其同事提供的信息的困境，受访者在两个方面给下列问题进行评分： 

1 = “提供信息给其他人是重要的” 

T = “维持保密的信任关系是重要的” 

我们展示模糊集合的运用方式来探讨受访者对/或了或两者给予高分的假设。 

这里的假设可以被解释成模糊并集 〖 U T 强烈偏向1。更“强烈”的版本预测 
丁二)〜7 (或是 J 二)〜了)，即 mi ( jc ) 1 — TwrCx ) ,同样的模糊限制是 w /( j *) + 
tmtCt ) > 1。这个评价对 J 与 T 有重要的反应模式，出于呈现的目的，我们假设 
性质评价的问题已经被解决了。表 5. 1的上半部分呈现了这个假设的强烈版 
本，其中除了 9个个案之外，都符合命题。 

假 设/与 了彼此独立(表 5. 1的下半部分），对已观察到的/ U 了分布与其 
期望值的比较表明，两者应该比实际观察到的更强烈偏向负面。卡方检验或许 
可以用来比较两个分布，且平方标准残差建构的卡方统计呈现在倒数第三行上。 
这个卡方检定得到 f (6) = 13. 2, p = 0.0 A , 因此支持偏向的假设。与案例 5. 1 
的状况一样，这里双变量的假设检验用通常的概念与相关测量会很难评价，但 
是用模糊集合却能轻松掌握。 
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表 5.1 /与 r 的交叉分析表 
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10 

9 
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1 


4 

8 

3 
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5 

4 

11 

0 
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11 
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10 

16 

30 

22 

31 

66 

54 

229 





川 
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1/6 

2/6 

3/6 

4/6 

5/6 

1 

合计 

观察到的几率密度函数 

1 

1 

2 

8 

32 

95 

90 

229 

预期几率密度函数 

0. 48 

2. 02 

7. 04 

15 

26.9 

78.5 

99. 1 

229 

平方标准残差 

0. 56 

0.51 

3.61 

3. 26 

0. 97 

3.47 

0. 83 

13.2 


侦测与评估模糊包含 

侦测与评估模糊包含的工作引发了 3个问题。第一，我们如何得知在什么 
程度上满足模糊包含的规则 m A U )> m B U ) l 其次，我们如何从两个独立的偏 
向变量的二元分布的“伪版”里区分出真正的模糊包含？第三，何时可以在我们 
的研究发现里排除对立的解释并且肯定模糊集合的解释？ 

从第一个问题开始，许多模糊集合理论家 （Dubois & Prade , 1980: 22) 批 
评过 mA (： c ) 的规则太过僵硬，不够模糊。史密生回顾过另类的评估 

模糊包含的方案 （ Smithson ， 1987: 31—32、 101—104) ，并发现它们属于两大 
类，第一个方案是将 waO ) ^ mfi ( x ) 的规则模糊化 （Dubois Prade , 1980; 
Ragin 2000) ，第二个方案是建构一个基于模糊集合运算公式或其他适当概念 
的包含程度指数。两个方案都基于归属评价所拥有的测量程度。我们稍后 
将讨论这个议题。这里，我们先转向区分伪版与正版包含的议题，来决定二 
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元分布是用一些其他的相关性来解释，还是用包含来解释比较好。表 5. 2 
用3个伪版(第一、第三与第四张表）与一个正版包含关系（第二张表）来显示 
重点。 


表 5. 2包含关系与伪版 


独立十偏向 
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包含关系 
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案例 5. 3: 现实的追求/逃避职位案例 

第二张表是从真实数据中获得的 (Smithson Heketh , 1998)，亦即360个 
受访者对荷兰职业兴趣量表的双项响应。一项响应显示在何种程度上，他们会 
追求某个具有“具体的”工作任务的职位，另一项响应则显示在何种程度上，他 
们会逃避该项工作。两个变量都是对等定义的（范围从完全不会到非常强烈）， 
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而且“逃避”评分也被反向录人为“不逃避”的评分。假设上的关系是，追求某项 
工作应该充分非必要地影响不逃避该项工作，这是因为某人可能因为另一项理 
由不逃避那个工作，所以“追求”应该被包含在“不逃避”之内。 

在上面4张二维表里，有相当类似比例的个案遵循包含的 m A U )^ n ， B ( x ) 
规则。排除在相关集合内没有归属值的案例之后，在第一张、第二张、第三张与 
第四张表中，其比例依序分别为 0. 887、 0. 889、 0. 891与 0. 889。然而，最上方 
那张表其实是由跨栏的两个独立偏向分布所组成，从这个表得到的卡方分布是 
Z 2 (36) = 3. 669,非常符合独立模型的状况。这个表中看似强烈的包含关系，其 
实是由两个分布本身的独立偏向造成的结果。 

让我们转向表 5. 2里的另外3张表，第二张表的卡方检定是% 2 (36)= 
234. 036,第三张表是; f 2 (36) = 1781. 344,第四张表则是; C 2 (36) = 3625. 220, 
显示两个变量之间不是独立的关系。然而，第三张表与第四张表显示强烈的相 
关关系而不是包含关系，尽管这两张表符合模糊包含规则的个案比例对第二张表 
来说都是显著的。许多研究者宁愿说第三张与第四张表的相关系数测量的是两 
个变量之间一对一的关联程度，而非一对多的必要条件。我们可以轻易想象并发 
现“中介的”情况，其中同时有稳定的强烈相关性与合理的强烈包含关系。 

那么，我们该选择哪种解释,又为何如此？由于需要更多的判断标准，这个 
问题比单纯侦测出独立的情况要难多了。例如，假如相关系数提供了一个对关 
系“好的”叙述（也就是说，所有假设与必要条件，像同方差性之类，都得到满 
足），包含性的解释仍然可能在理论上更相关。另外，包含是一个一对多的关 
系，因此与相关系数或强烈的关联测量相比，是较不精确的命题。 

让我们先排除独立+偏向的情况。独立+偏向不能成为真正的包含关系 
是因为，在两个统计独立的随机变量之间并没有关联。然而，就像例子所显示 
的，把偏向的统计独立随机变量设定成符合模糊包含的形式并不难。当两个变 
量在统计上独立时，它们的共同分布完全被边际分布所决定，因为其共同分布 
完全是边际的产物，而边际依赖的是归属赋值。就像我们在第3章中所看到的， 
归属赋值是一项很困难的工作。在赋值过程中，人们最好不要随便得岀结论， 
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因为几乎无法争论说给定的赋值是错的。对非连续性的归属评价，以此案为 
例，传统对独立性的卡方检定经常是适当的。对连续归属评价而言， Kolmogor - 
ov - Smimov 检验是最广为人知的，它比较了观察到的共同累积分布函数 
( JCDF ) 与独立状态下预期的共同累积分布函数。 

关联+偏向导致了其他问题。我们的观点是，如果二元分布满足相关假 
设，则研究者应该首先关注一个变量对另一个变量的预测，然后用相关系数回 
归描述，或许用模糊集合观点，或许用 GLM 去同时估计位置与离散的程度。另 
一方面，特殊类型的异方差性在包含同时，包括了两个集合之间的巨大规模差 
异，用类似集合的概念表述的且/或研究问题，应该认真考虑模糊包含作为一种 
描述数据形态的工具。接下来我将介绍探讨包含关系的技巧与相关细节。 

包含的量化与建模 

在很多环境下，我们希望能评价一个包含关系的论点相对于另类归属赋值 
的强烈程度。对 m A ( x )> m B ( x ) 的规则与任何包含指数而言，对两个集合归 
属值的共同排序决定了结果，因此有必要探讨，如果改变共同排序，包含比率或 
指数赋值会产生什么变化。对解决我们的结果有多大程度依赖归属值的共同 
排序这个问题，一个合理的方案是，在找到数据之前就制定一个基准包含率，然后 
查明在置信区间里包含这个比率或更高比率的路径的集群。决定相关“集群”的 
一种方式是从一个特定的归属值的共同排序决定一个路径，其包含置信区间包括 
了之前的比率，然后查明哪个相邻的路径的置信区间也包括这个比率。 

要知道上述方案如何运作，我们须回到找工作的那个例子，运用一个 0. 9 的 
资格包含比率。就像我们早先提到的，从对角线路径计算遵循 maU ) > m B ( x ) 
规则的个案比例为 0.889。 此路径 95% 的置信区间是 [0.848, 0.922]， 因此，它 
与包含率 0. 9 相符合，事实上，这也显示了任何路径的比率低于 264/305 时，仍 
将得到包括 0.9 的置信区间。 

表 5. 3 其实是根据表 5. 2 的第二张表重新绘成。以阴影表示的区域指出， 
在原始值的共同排序里，至少有 264/305 比例的一个交错路径的集群。这个归 
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属值之共同排序与相应的对角线路径是 0< w s (2) = mm (2) < m s (3) = mm 
(3) < m s (4) = mm (4) < m s (5) = mm (5)< m s (6) = mm (6) 〈 1。路径的 
集群构成一个略低于对角线的区域，例如，相应于共同排序0<%(2) = 
mm . (2) < m s (3) = tuna (3) < m s i ^) = mm (4) < m s (5) = mm (5) <； 
m s (6) =mm (6) <1，也是由对角延顺序的次数分配彳8, 4, 22, 30, 3, 9, 26} 
而得到的路径。 


表 5. 3 0.9 置信区间包含比率 
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5 

7 

12 

23 

3 

2 

0 

52 

thna (6) 

1 

5 

10 

25 

19 

9 

1 

70 

1 

3 

3 

2 

16 

13 

13 

26 

76 

合计 

55 

44 

58 
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43 

25 
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在缺乏包含率的标准下，我们或可运用在共同排序标准中的单一修订来发 
现归属赋值对包含率的敏感度。然后，我们从包含率为 0. 889的对角线路径开 
始，这个比率最大可能的改变来自在共同排序中的一次修订，也就是排除 
{ m s ( A ) = m NA ⑷) 格子里的30个案例。将它们以“降低”路径排除在外，将使 
包含比率由 0.889 降低到 (271-30)/305 = 0. 790。最大的增加来自共同排序 
中的一次修订，包括了 im s < A ) = mm (3)} 的10个案例，这导致包含率上升到 
(2 H +10)/305 = 0. 921①。这两个例子都违反了 m A U )> m B U ) 规则，因为 
数据受到边缘分布的严重影响，这个包含指数也无法区分负相关与真正的包 


①原书作者笔误为217。——译者注 
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含。由拉津提供的 mAi 工 、> mB (_ r ) 规则明确地假设边际分布是单一的 
( Ragin , 2000), 为避免在边际分布上作出强烈的假设，我们必须转向以表格或 
点状图的地方包含关系为基础的包含模型。 

运用表格或点状图来模拟包含的共同方法之一是通过层级集合，也就是第 
2章所讨论的问题。运用建构出共同累积分布函数的方式，我们可能建立表格 
内任意一格的包含率(或是画在点状图上)。在表 5. 4中，第一张表显示了表 5. 3 
的共同累积分布函数，这是右下角{1， 1} 那一格往左上移动的累积频率。该起 
始点有26个案例，所以上移一格增加了一个案例，可获得27个案例，而向左移 
可以获得13个案例，也就是39个案例。向上同时又向右的路径移动可获得1 + 
13+ 9个案例，总共就是26 + 1 + 13 + 9 = 49个案例，以此类推。 

第二张表显示了每个格子的地方包含率。这些数字是由表格里的累积频 
率除以落在首列各栏的累积总数而得到的。比如，右下角那一格的数字就是 
26 /28 =0. 929,其左边那一格就是39/53 = 0. 736,以此类推。我们可以把 
这些比例视为地方包含率是因为，在同层级的集合内相应的格子里，每个案 
例都遵守了 m A ( x ) 的规则。比如{0.83, 0.83} 那格，其包括了共同 

累积分布函数得到的49个案例，其中，53个案例有 0. 83或以上属于追求的 
归属值，而且有49个案例符合 m A U ) ^ m B ( x ) 的规则，因为它们也有 0. 83 
或更高的不逃避归属值。这个比例算起来就是49/53 = 0. 925,这正是填入 
第二张表里的数字。 

层级集合与共同累积分布函数取向使得研究者得以阐明地方包含率的趋 
势。请留意，在对角线上的格子的包含率彼此很接近，这个路径争议性地拥有 
一个稳定的包含率，而我们应该简单说明如何利用这条路径测试一个常数包含 
模型。表 5. 4上的包含率趋势与负相关的例子之间存在鲜明的对比，就像表 5. 
5所显示的。表 5. 5中对角线的包含率显然不稳定，我们沿此路径向上与向左 
移动时，从0突然跳跃到很高层次。这个比较表明，地方包含模型可以区分两种 
关系，而总包含率与包含指数却做不到。 
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表 5. 4案例 5. 3之共同累积分布函数与地方包含率 





共同累积分配 
追 

求 



不逃避 

0 

m s (2) 

m s (3) 

m s (4) 

(5) 

(6) 

1 

0 1 

360 

305 

261 

203 

96 

53 

28 

msA ⑵ 

344 

297 

256 

200 

94 

52 

28 

mm (3) 

327 

288 

251 

198 

94 

52 

28 

mm (4) 

281 

259 

233 

187 

93 

52 

28 

m^A (5) 

198 

189 

174 

150 

86 

51 

27 

msA (6) 

146 

142 

134 

122 

81 

49 

27 

1 

76 

73 

70 

68 

52 

39 

26 




地方包含率 

追 

求 



不逃避 

0 

m s (2) 

m s (3) 

mM ) 

m s (5) 

m , (6) 

1 

0 








mm (2) 

0. 956 

0. 974 

0. 981 

0. 985 

0. 979 

0.981 

1. 000 

rriNA (3) 

0. 908 

0. 944 

0. 962 , 

0. 975 

0. 979 

0.981 

1. 000 

ttina (4) 

0. 781 

0.849 

0. 893 

0. 921 

0. 969 

0. 981 

1. 000 

mm (5) 

0. 550 

0. 620 

0.667 

0. 739 

0. 896 

0. 962 

0. 964 

m.\A (6) 

0. 406 

0.466 

0.513 

0. 601 

0.844 

0.925 

0. 964 

1 

0.211 

0. 239 

0.268 

0. 335 

0. 542 

0. 736 

0. 929 


表 5. 5 

负相关案例之共同累积分布函数与地方包含率 





共同累积分配 
追 

求 



不逃避 

0 

m s (2) 

m s (3) 

w s (4) 

m s (5) 

(6) 

1 

0 

360 

305 

213 

121 

34 

20 

16 

mm (2) 

344 

289 

197 

105 

18 

4 

0 

mm (3) 

340 

285 

193 

101 

14 

0 

0 

m^A (4) 

326 

271 

179 

87 

0 

0 

0 

m^A (5) 

239 

184 

92 

0 

0 

0 

0 

m^A (6) 

147 

92 

0 

0 

0 

0 

0 

1 

55 

0 

0 

0 

0 

0 

0 
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续表 





地方包含率 
追 

求 



不逃避 

0 

m s (2) 

m s (3) 

(4) 

m s (5) 

(6) 

1 

0 








rriNA (2) 

0. 956 

0. 948 

0. 925 

0. 868 

0. 529 

0. 200 

0. 000 

771^(3) 

0. 944 

0. 934 

0.906 

0.835 

0.412 

0. 000 

0. 000 

m^A (4) 

0. 906 

0.889 

0. 840 

0. 719 

0. 000 

0. 000 

0. 000 

rriNA C 5) 

0. 664 

0. 603 

0. 432 

0. 000 

0.000 ' 

0. 000 

0. 000 

rriNA (6) 

0. 408 

0. 302 

0. 000 

0. 000 

0. 000 ! 

0. 000 

0. 000 

1 

0. 153 

0. 000 

0. 000 

0. 000 

0. 000 

0. 000 

0. 000 


现在，让我们用找工作那个例子的对角线路径来测试一下稳定包含模型。 
这条路径上的平均包含率是 0. 947,我们可以测试这条路径上的地方包含率趋 
势究竟是否稳定地维持在一个 0. 947的常数包含率上。有好几种办法可进行测 
试，但是最熟悉且或许最简便的是用卡方检定，其原则是产生共同累积分布函 
数在对角线上的预期频率，然后获得邻近这条路径的格子的预期频率与原数据 
之差，最后再用单向卡方检定来与原先观察到的频率进行比较。 

表 5. 6的第一张表呈现的是从右下角开始，如何通过观察频率获得邻近这条 
路径的格子的预期频率与原数据之差。第二张表显示如何用 0. 947的包含率为标 
准与第一张表第一列的边际观察频率来计算预期频率。在最左上角的格子里，预 
期频率是 71. 165,这是由360个样本总数扣除其他预期频率计算而得到的。 

由于总共有7格，自由度为6,因此我们用了 0. 05的显著标准，判准的卡方 
检验值应该为 12. 592,观察到的卡方则是 x 2 (6) = 3. 257,低于判准值，这也表 
明，稳定包含模型与数据相符。相对于 0. 947的包含率，我们无法用卡方检定来 
拒绝两者相同的假设。用稳定包含模型来获得一个95%置信区间并不困难，虽 
然我们应该牢记的是卡方检定比较保守,所导致的置信区间是[0.888, 1]。此 
外，找出所有路径群集，使之与稳定包含模型兼容，无论是预设的比率或普遍的 
检定，都仍然是可能的。然而，对这个议题的探讨超过了本章的范围。 
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现在，让我们用负相关的对角路径为例来测试稳定包含模型。表 5. 7呈现 
了观察到的频率，我们可以发现，无论制定什么包含率，卡方检定都会拒绝表内 
的稳定包含模型。此处得到最低的卡方(其包含率为 1) 是 X 2 (6) = 40.959,比 
起我们的判准值 12. 592显然要高得多。这个稳定包含模型成功地区别了找工 
作与负相关的例子。 


表 S .7 负相关范例之频率 




观察到的频率 






追 

求 




不逃避 

0 

m 5 (2) 

m s (3) 

mM ) 

m . s (5) 

m s (6) 

1 

0 

360 — 289 

— = 71 」 

92 

92 

87 

14 

4 

16 

rn NA (2) 

289- 193 

= 96 






m>iA (3) 


193-87 

=106 





m NA (4) 



87 




rriNA (5) 




0 



rriNA (6) 





0 


1 






0 


此外，它可以轻易地用来证明，只有在两个统计独立的模糊集合的情况下， 
稳定包含路径才是水平的。对定序分类的归属函数与表格来说，假设独立性成 
立，计算预期频率公式背后同样的论点，随之可得到这个特质。由于没考虑真 
正包含关系里独立+偏向所造成的包含趋势，我们的推理会导致水平包含路径 
的结果。 

量化与类似成员规模 


当 WA ( X ) 与是量化且可比较的时候，模糊集合的方法就很多。现 
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在，我们通过一个简单的调査来呈现研究者面对这种状况时的可能性。 

案例 5. 4: 对热带毒物的恐惧与强烈憎恶 

我们用了向262个心理学系大学生(澳大利亚热带区的詹姆斯库克大学)收 
集来的调查数据，让他们自行报告对31种有毒刺激物，例如，对蛇或呕吐物的感 
受。他们被要求对每种毒物的恐惧、恶心与讨厌程度评分，分数范围为 4 级，从 
0( 完全不会)到 3( 非常）。这31项恐惧、恶心与讨厌程度评分被加总并区分到 
31个集合以获得每个项目的模糊归属评价。为了进行研究，我们将把这些评价 
当成量化可比的归属值。这个研究的主要目的是检验一个假设，这个假设是在 
恐慌类型反应里，恐惧与恶心是讨厌的次集合，而讨厌是一种更为广泛的情绪 
反应。一个附加的问题是临床与健康心理学提出的并发率议题，即在什么情况 
下，受访者会对毒物同时感到恐惧与恶心。 

交集与并集的势 

从并发率的议题开始，传统的取向会采用相关系数。表 5. 8呈现了 3个 
模糊集合之间是显著且稳定相关。然而,相关系数无法告诉我们一个集合是 
否强烈包含另一个，也无法对集合的相对规模与他们的交集提供有意义的 
测量。 


表 5. 8恐惧、讨厌与恶心的相关系数 


恐惧 

0. 434 讨厌 

0. 747 0.410 恶心 

我们或许可以测量模糊集合的交集与并集的势,因此可以集中关注并发率。 
表 5. 9的上半部分呈现的是恐惧、恶心与讨厌程度的平均归属值，下半部分在对角 
线格子之外的是平均归属值的成对交集。下半部分显示的就是每个集合与另一 
个集合之间交集的比例。例如，恐惧与讨厌的交集有平均归属值 0.229, 由于恐 
惧的平均归属值是 0. 231而讨厌的平均归属值是 0. 563,恐惧在交集里的比例 
是 0. 229/0. 231 = 0. 991，讨厌的比例则是 0. 229/0. 563 = 0. 407。 
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平均归属值 


恐惧 

讨厌 

恶心 

0. 231 



0.229 

0. 563 


0. 181 

0.214 

0.215 


交集比例 


恐惧 

0. 407 

0. 842 

0.991 

讨厌 

0.995 

0. 784 

0. 380 

恶心 


模糊交集所提供的并发率图像与相关性视角截然不同，恐惧与恶心的并发 
率显然很高(在交集之内，恐惧有 78. 4%而恶心有 84. 2%)，讨厌显然包括了大 
多数的恐惧与恶心 (99. 1%与 99. 5%)，但只有 38. 0%的讨厌被包含在恶心交集 
内， 40. 7%被算在恐惧交集内。讨厌强烈包含恐惧与恶心的发现，得到图 5. 2中 
两个点状图的支持。 

即使恐惧与恶心被大致归类到讨厌之内，但恐惧与恶心的并集是否充分包含讨 
厌？恐県 U 恶心的平均归属值为0.266,远低于讨厌归属值的一半(0.563)。事实上， 
交集内的平均归属值（恐惧 U 恶心） H 讨厌是 0. 263,所以，讨厌包括了 
100(0. 263/0. 266) = 98. 7%的恐県 U 恶心。这些发现指出，讨厌是一个远比恐惧与 
恶心的并集更加广泛的分类，这远远超过相关或回归分析可以提供给我们的信息。 


表 5. 9恐惧、讨厌与恶心的平均归属值及其交集比例 


5 
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1.0 
0.9 
0.8 
0.7 
0.6 
5^ 0. 5 
^ 0.4 
0.3 
0.2 
0 . 1 
0.0 
— 0. 1 

0.0 0.2 0.4 0.6 0.8 1.0 

讨厌 

图 5. 2恶心交集讨厌与恐惧交集讨厌之点状图 



包含系数 

此处，我们转向包含系数，这是把一个集合包含另一个集合的程度加以量 
化的方式。最简单的包含指数只是集合内符合 rn \ ( x ) ^ maix ) 规则的个案比 
例，这就是我们第2章提到的经典包含率。虽然其精简的特质很有吸引力，但其 
主要的限制是，其“近乎消失”像是一个有力的反例。这里，我们呈现两种系数 
以超越这个限制，也就是史密生曾讨论过的“包含1”与“包含5”指数 ( Smithson ， 
1994)。第一包含指数的定 义为： 

Iab = yi waubC - t ；)/ [5.3] 

Jab 是集合 A 与集合 B 的交集除以集合 B 的比例 （ Sachez ，1979)， 这很清楚是 
基于模糊集合理论的概念。我们通过表 5. 9讨论到一个集合被算入其与另一集 
合交集内的比例时，已经使用了这个系数。 

共同累积分布函数、地方包含取向与 Jab 之间有重大的关联。在表 5. 4中， 
共同累积分布函数数值在对角线上的加总除以格子的总数是 （26 + 49 + 86 + 
187 + 251 + 297)/6 = 149.333,这是追求与不逃避某工作的交集的势。若々= 
0, 1, 2, K , 当 K 是非零归属层级的个数时，我们可以把归属值当成 A / K 。 
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把累积分布函数加总并且除以6,即 （28 + 53 + 96 + 203 + 261 + 305)/6 = 
157.667,则是追求集合的规模，所以其包含指数 Jab = 149. 333/157. 667 = 
0. 947,在我们将归属值视为 k / K 且当 K 等于路径内格子数量的情况下，这也 
可以被视为共同累积分布函数在路径上的加总除以所包含集合的累积分布函 
数。这个观点也就成为稳定包含模型之 0. 947比率测试的基础。 

“包含5”的系数则被定 义为： 

^] max (0, mA (. JCi ) 一 ms ( x t -)) 

Cab = —^― . --- L 5. 4」 

2_J I WA (x ;) —mB (.Xi) I 

Cak 是 wiA (~ r ) 与 ms ( x ) 之间在适当方向上偏离平等的比例，这个公式事实上是 
以 m A (: c ) > m B U ) 不等式为基础的一般化，用于求不平等归属值在观察值里的 
比例。 

哪一个指数比较完美取决于研究者的分析目标。首先，每个集合里归属值为0 
的个案都不影响 Iab ，但却影响 Cab 。第二，_ ( x ;) = mB ( xi ) 的个案不影响 Cab ， 
但却影响 / ab 。 第三， Cab = 1— Cm ，但 Jab 却没有这个性质。最后，两个系数者 P 不 
是个案导向的，这种导向对估计的目的来说有吸弓 I 力的特质 ( Smithson ， 1987、1994)。 

对任何被设计来测量某种特定关系但非其他关系的系数来说，包含系数有 
其限制。首先，这些包含系数都无法说明独立性是否成立。此外，就像前面提 
到的，它们受边际分布的强烈影响。如果包含系数像2 X 2表格里的发生率一样 
不受边际分布影响,将会很有帮助。表 5. 10显示了表 5. 2的4个分表里的包含 
系数，在独立的例子上(表 5. 2的第一张表）， Lub = 0. 914而 Cab =0. 962,除非 
我们已知独立的情况，否则它们都有很高的包含率。 


表 5. 10表 5. 2之包含系数 



A = 不逃避 

B = 追求 

交叉 

Iab 

Iba 

Cab 

Cba 

独立 

282. 667 

90. 833 

83. 000 

0.914 

0. 294 

0. 962 

0. 038 

包含 

228. 667 

157. 667 

149. 333 

0. 947 

0. 653 

0. 905 

0. 095 

正相关 

176. 667 

183. 000 

176. 667 

0. 965 

1.000 

0. 000 

1. 000 

负相关 

241. 833 

118. 167 

94. 833 

0. 803 

0. 392 

0. 863 

0. 137 
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此外，两个系数都无法很好地区别真正的包含与偏向的负相关案例。最 
后，对高度正相关的状况来说， / ab 与 Cab 的行为非常不同，这是因为，虽然 /ab 
与数值都不是很高，但 Cab = 1 ，所以如果其中一个高，另一个就低。 

然而，所有这些限制的暗示是，包含系数其实不适合告诉我们究竟该用包 
含还是其他模型来描述某个双变量关系。直至现在，严肃处理这个问题的最好 
办法仍是用点状图与地方包含率来模拟二元分布。因此，当一个包含系数提供 
了有用的多样性统计性质时，它也包括多样统计的弱点。在我们来看，包含系 
数是对双元集群关系或筛选多个成对变量关系的有用综述。在第6章中，我们 
会提供一些案例来说明，包含系数或许可以一般化并用来获得多元集合关系的 



第 6 章 I 多变量模糊集合的关系 

:: :: . : :::: : : ： ：:: - 


本章将探讨多集合的关系与概念。我们从组成集合指针与条件归属函数 
开始，两者能显示结合模糊集合工具与传统的评价建构概念的优势。随后，我 
们将重点放在多集合的交集与并集，通过厘清共同发生、模糊交集与共变异之 
间的关联，呈现模糊集合取向如何帮助我们解决关于并发率概念的漫长争论。 
我们希望通过案例的讨论来说明，如何运用模糊交集而非相关系数得到一个并 
发率不同且发生争议时更为清晰的视角。本章将以多重与部分交集与包含的 
介绍结束。 

组成集合指数 

模糊集合理论中一个强大的视角是，数学运算可以用来组成指数，把某种 
特定的学术定义转化为一种量化指数。当然，我们经常做同样的事情，但模糊 
集合特别自然，这是因为它在逻辑上或者集合理论的风格上符合许多理论定 
义。例如，理论上经常认定某种性质13被定义为属于事物 X 是因为符合一个或 
多个条件，即 An A 2 , …， A *， 这在数学上等同于说集合 X 必须有共同交集 
AiflAzn … HA *。 如果某些或全部成分集合都是模糊的，那么，应该可以轻 
松地求出归 属值： 


m，B ( x ) = minCw ： ( x ), ( x ) , •■- , ink ( j :)) [6.1] 


如果定义可以被转换成集合理论的用语，那么许多更复杂的指数都是可能 
的。就像我们多次提到的，与加权总值相比，极 小一极 大算式并非互补性的（在 
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某些领域被称为“非交互性”的）。例如，在公式 6.1 中， A ! 的高归属值不会补足 
A 2 的低归属值。因此，研究者或许希望考虑是否该用标准的极小一极大算式或 
其他方式，如相乘或概率加总 ( Smithson ， 1987:26—29)。 

案例 6. 1:选举民主指数 

在第3章里，我们引进了选举民主指标 （Munck Verkuilen , 2003； 
UNDP , 2004) ，就像前面提到的，选举民主指标与4个成分 一致: 普选权 ( S ) 、执 
政权(⑺、自由权 ( F ) 与清廉权 ( C )。 S 指所有成人都有投票权， C ) 指有决策权力 
的官员(行政与立法)都必须被选举， F 指组织政党竞争与结社的自由，而 C 指 
计票且选举过程公平的权利。理论思考建议我们，这些成分都是必要条件，因 
此，任何一个成分缺席就足以使一个国家被称为“非民主”。这就表示 EDl = 
S 门 onFnc 。 然而，以上所有成分的程度仍然很重要，以普选权来说，广泛但 
是未能全面涵盖的情况是可能的，在美国20世纪60年代的选举改革之前，南方 
对投票权也设下了广泛的限制。 

因此，我们必须定义模糊集合选举民主指标是上述成分的交集。标准的取 
向为 wed (工 ）= minCwij ( x ) , m 0 ( x ) , mf ( x ) , m f ( x )), 由于最小算式不是互补 
性的，下面这两种国家将会有同样的选举民主指标归属值 min (0. 25, 0.25, 
0. 25, 0. 25) = min ( l , 1，1， 0. 25) = 0. 25。然而，这两个国家的情况对多数观 
察家而言是非常不同的。第一个国家是表现全都不好的典型，而第二个国家是 
民主体制但存在选举作弊的 情况。 相对于交集的最小算式，乘积算式也可以被 
运用 ： mw ( x ) = w s (: c ) Xm u ( j ：) Xm /( j ) Xm r (: c )。 用乘积算式来估计我们举 
出的两种国家，则会产生显著不同的选举民主指数归属值，第一国的归属值是 
0. 004,第二国的则是 0. 25。 

条件归厲函数 

对模糊集合的早期批评是，它对情境不敏感 （ Amarel , 1984； Zeleny , 
1984)。在同一个人群里，“高大的”模糊归属函数对男人与女人不同，这不需要 
什么了不起的智识创举就能断定 ( Foddy & Smithson ， 1989)。虽然在基本模糊 
集合架构内，没有明显提出条件归属值，但这个一般概念十分 易懂。 我们所需 
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要的只是一个或一个以上的变量作为归属函数的条件，再加上一个对条件化函 
数的清楚定义。 

然而，因为“条件性的”一词在日常使用中有两个意思，所以该词可能有误 
导性。第一个意思是“预测性的”，是指 A 中的归属值可以被 B 给定的值所预 
测; 另一个意思是“被给定的”，是指 A 中的归属值是被 B 的值给出的结果。在 
这一节中，我们将主要关注给定的条件归属值。 

最简单的给定条件归属值是一个模糊集合的正态化，即用集合里最高的值 
去除原始归属值。正态化是一种相对归属值而言特殊化案例，亦即归属值被以 
次集合里的典型来衡量相对评价。“高大男人”与“高大女人”的归属函数或许 
可以被当成归属值相对化的例子。 

另一个更有趣的条件化形式是依赖一个或多个变量，其中，集合 A 的归属 
值程度依赖条件化变量的定义。史密生使用了这一类的条件化来测量不同交 
通运输选择在老年人口中的受欢迎程度 （ Smithson , 1987:281—282)，没有私人 
运输工具者不能“选择”是否使用这些服务，如果只有公交车可乘，人们也不能 
“选择”是否搭乘公交车。因此，若有42%的人口有私人交通工具而且他们也有 
其他交通选择，而32%的人用私家车来完成任务，则这个选项条件化的受欢迎 
程度就是 0. 32/0. 42 = 0. 76。此外，若72%的人可以使用公交车系统,但其中 
12%的人没有其他选择，导致32%的人用公交车来完成任务，则这个选项条件 
化的受欢迎程度是 （0. 32 — 0. 12)/(0. 72-0. 12) = 0. 33。 

案例 6. 2:杜林等级 

赋予条件评价的做法在社会科学界并不常用，其中，多数例外的状况出现 
在临床心理学与风险评估的运用中。可以被当成条件归属函数的例子是杜林 
等级 ( Binzel ， 1999)，这是由于关注小行星撞击地球或然率的假警报造成公众的 
困扰所发展出来的等级。这个等级的阈值由小行星被测到的动能 ( MT ) 与撞击 
的概率所决定，如图 6. 1所示。数字从0到10,相当于小行星潜在毁灭性撞击 
集合里的归属程度。 
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图 6.1 杜林等级 


这个等级最具启发性的视角也许是，撞击概率的阈值从一级升高到另一级 
是根据动能的条件。很明显，当动能增加时，其中3个阈值就降低了，显示出更 
高的撞击或然率风险(更低回避）。以此为例，有同样归属值表示同样的预期能 
量，例如，在1与2之间的层次， MT 为100加上撞击概率为10- 2 的事件会与 
MT 为10 8 加上撞击概率为 1 CT 6 的事件相等。 

多集合 关系： 并发率、共变异数与共同发生率 

接下来，我们将模糊集合概念里的交集、并集与包含一般化到超过两个集 
合的情况。首先，我们将以案例来运用多集合模糊交集与相关概念，以显示该 
理论对关注并发率概念的冗长争论作岀的贡献。 

在健康导向的学科领域，如临床心理学，并发率指两个或两个以上的症状 
同时出现。从医疗领域借用的这个概念遭到广泛的争论与批判，部分原因在 
于，这个概念与现象的分类观点以及医药疾病模式的起源有关，因此引起了是 
否适用的争议。某些作者现在偏好共变或同时发生，但他们把这些概念看成彼 
此割裂的，前者只适用于向量的观点，后者则只适用于分类的观点。 

这个观念是不必要的限制。模糊集合理论提供了共变异数与共同发生率 
两个概念之间的桥梁。为了简洁但又不失普遍性起见，我们假设一个等距层次 
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的评价，使我们可以为模糊集合 A 与模糊集合 B 内的非归属者与完全归属者定 
出高标与低标。然后我们可以将 Pearson's R 作为不受评价影响的对 m A 与 m B 
共变的测量。但我们仍然可以用下述方式把共变与模糊集合交集（共同发生 
率)联结起来。 

建立这个关联的最基本的解决方案是变异数与共变异数的 公式： 
cov(mA > mB) = 'yimAmB/N — ( mA /N) ( ^ mg/N) 


且 


var(mA) = — ( 'Y', mA/N) 2 [ 6 . 2 ] 

对样本进行估计时，只需将这些等式的右边乘以 N/(JV — 1) 即可。第一条公 
式的重要性在于 2] 这一项，这是用乘积公式计算的集合 A 与集合 

B 的模糊交集的平均数（即这个交集比例化的势）。换句话说，如果两个集合 
在统计上独立，那么，两个归属函数的共变异数正是它们的交集（共同发生 
率)与预期交集的差值。因此，以 E 来测量的 A 与 B 共同发生率 

可以被 写成： 

cov(mA ， tub) -\-rnAmB 

或是样本估 计为： 


(N — l)cov(mA» ms) / N mAm b [6. 3] 

将 A 与 B 的任何原始评价改为模糊集合函数 A 与 B 的线性转换都将保留 
原来的 A 与 B 的共变异值，借以提供对共同发生率的测量，它测量在 A 与 B 还 
是原始分布时的简单函数。应该注意的是，在相关系数是评价独立的意义上， 
共变异数与共同发生率都不是非向量(独立于评价外）的测量。这个命题与模 
糊集合的一般性质相符，事实上，模糊集合确实依赖于归属函数的界定。 

我们已经建立了一个与共变异数一致的共同发生率测量方式。但在一般 
概率论、发生率(发生比率）与共变异数之间，有一些不明显的关联。回顾第4 
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章，我们看到，比例集势与概率分享了同样重要的性质。 

在第4章里， || A || =& a 。 我们可以将发生率一般化为 下式: 


0 .A = rnA / ( 1 — mA ) [6.4] 

可以使 &AB = ^ mAma / N ， 则给定 B 时， A 的条件发生率为: 

= mAB (mB — mAB ) [6.5] 

请注意，条件发生率或许也可以被表达成共变异数。最后，一般化的跨乘积发 
生比率 fiAlfi / flA 卜 B 为： 


Aaib / Oai-b = 


mAB {l —mA — TUB + mAB ) 

(mB — thab ) (mA — mAB ) 


[ 6 . 6 ] 


这些定义将意义赋予共变异数与平均数等公式。 

因此，我们可以强调关注共同发生率的问题，不是通过强调共变异数本身， 
而是通过共变异数的公式，而且是当我们用乘积算式来运算时。这包括下列各 
点： （1) 不考虑任何其他的分类时(也就是在其他分类里的共同发生被排除的情 
况下），一个分类里的平均归属值是多少？ （2) 两个分类以上的平均共同发生率 
怎样 计算？ （3) 组合分类时（例如， A 或 B 但非 C ) 的平均归属值怎样计算? 
(4) 在一个样本里所得到的共同发生率分布如何与另一个样本比较？ 

我们现在讨论两个以上模糊集合的共同发生率与共变异数的关系。或许 
最直接的方法是用乘积算式来思考3个模糊集合的交集，即一个模糊集合与另 
外两个的乘积之间的共变异数。例如，由公式 6. 2与公式 6. 3我们可以 得到： 


cov(mA ， mflc) = mABC ~ mAmBC 

=mABC mA ( cov ( wb ， me) + wb ^ c ) 


因此， 


mABC = COV(wa ， thbc ) + mAmBC 

= cov(wb , mBC ) — tka (cov(mfi » me) + msme') 


[6.7] 


与之前一样，若是用样本估计，则将这些等式的右边乘以 N /( iV —1) 即可。当 
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然，我们也可以获得 cov(mfi ， wac) 与 cov(mc ) 相应的公式，像这样建立 
任何数量的模糊集合的乘积交集的共变异数与平均数并不 困难。 然而，多集合 
交集显然不能简化到双变量的形式，其结果是估计公式的不一致。 

在继续演示之前，这里有另外两个议题需要先讨论。首先，如之前提示的， 
我们可以在极小算式与乘积算式之间，选择共同发生率与并发率的测量方式。 
乘积算式与共变异数直接相关，如前所述，这个算法有其优势。然而，极小算式 
在处理共同发生率时有更重要的解释性优势，也就是说，它确实对应于某人或 
某事物有某种症候群 Ai，A 2 , …，已经达到最小程度 X的概念。而且在症 
候群数目增加时，它也不像乘积算式那样明显下降，因此它在某些比较分析中 
更容易解释。例如，某人在5种症候群都出现部分症状时的极小算式有 0. 8,会被 
认为并发率有 0. 8,但是在乘积算式估计下会变成 （0. 8)5 = 0. 328。相对于简单乘 
积，几何平均也可以作为一种明显正确的测量，但我们暂时还是用乘积来说明。 

第二个议题是粗并发率与“相对”并发率的标准化对个别症候群发生率的 
计算。相对并发率与第5章里的公式 5. 3所定义的包含系数 Jab 相同，也就是 
集合 B 在 A 与 B 并集里的比例。此外，在 A 与 B 于统计上独立的情况下，相对 
于预期共同发生率，共变异数也可能是对并发率的一种测量方式。结果，当样 
本里的症候群比率系统性地不同时， Iab 与共变异数都可以作为比较并发率的 
有效工具。 

案例 6 . 3:回 到恐惧与憎恶 

让我们回到第5章案例 5. 4里那个262个大学生对31种毒物的讨厌、恐惧 
与恶心比率的例子。我们已经看到，用极小算式来测量并发率会导致与相关系 
数非常不一样的趋势，包括讨厌强烈包含恶心与恐惧。这里，我们用同一个例 
子去演绎共变异数、乘积算式的并发率与一般化的发生率之间的关系。 

表 6. 1的上半部分显示了 3个模糊集合的平均归属值，它们与平均乘积交 
集归属值 并列; 下半部分显示的是共变异数。公式 6. 1与这些计算相关，例如, 
设定 A= 恐惧而 B= 讨厌， 则有： 


cov(wa , m B ) = (262/261)[0. 1395-(0. 2315)(0. 5633)] = 0. 0092 
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表 6.1 恐惧、讨厌与恶心的共变异数 


平均乘积归属值(并发症） 


A = 恐惧 

讨厌 

0=恶心 

0. 2315 

0. 1395 

0. 5633 


0. 0696 

0. 1302 

0. 2152 

共变异数 

恐惧 

0. 0092 

讨厌 


0.0199 

0. 0090 

恶心 


表 6. 1提供了所有我们需要的信息来概推发生率与发生比率，例如，从公式 
6. 5与公式 6. 6,我们可以 得到： 

n B |A = 0. 1395/(0. 2315-0. 1395) = 1. 5181 

0,b\~~a = (0. 5633 — 0. 1395)/(1 — 0. 2315 — 0. 5633 + 0. 1395) = 1.2290 
CIb\a/0,b\~a = 1.2353 

也就是说，给定恐惧时的讨厌是给定不恐惧时的讨厌的一般化发生率的 1. 24 倍。 

因为3个模糊集合有重叠，所以计算它们三者中各自的排除性归属值也是合 
理的，也就是说，我们希望比较 a 、 b 与 c 及 a n 〜 b n 〜 c，s n 〜 a n 〜 c ， 
cn~A d ~ b 的势。在第 5 章里，我们已经看到，讨厌强烈包含了恐惧与恶心, 
所以我们应该预期，相对于 A 门〜 B 门〜 C 及 cn 〜 Afl 〜 B 与 A 及 C 的关系， 
B n 〜 A n 〜 C 会很接近 B 的规模。在表 6. 2中，我们可以看到这些预期被证实。 


表 6. 2恐惧、讨厌与恶心的平均排除性归属 



㈣ 集 

交集 

恐 惧 

0. 2315 


非讨厌与非恶心 

0. 0674 

0. 3517 

讨 厌 

0. 5633 


非 恐惧与 非恶心 

0. 3387 

0. 6629 

恶 心 

0.2152 


非恐惧与非讨厌 

0. 0605 

0. 3448 


惧厌心 
恐讨恶 
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案例 6. 4: 儿童之间的心理症状 

通过被广泛使用的儿童行为检查表 ( Achenbach ，1991) ，霍贝克发展了一个 
儿童心理症候群的模型 （ Heubeck ， 2001 )，使用了一个包括3712个儿童的样 
本，他们曾经因为心理或/及行为上的干扰被转介到诊所，另外在同一个区域又 
挑出了 3400个不曾被转介去诊所的儿童。在最终模型里的这7项症候群依序 
为: A 1= 戒瘾， A 2 = 生理问题， A 3 =焦虑/恐惧， A 4 =思虑失序， A 5 =无法集 
中， A 6 =冒犯， A 7 =攻击性。 

这7个症候群的要素评分以组成临床心理协议与症状条件的方式被转换成 
模糊归属函数。一种传统的处理分类症状临界点的方式是使用整体样本分布 
里的高百分比数点(如95%)，另一种方式是用 logistic 回归，以 p (就医 ） =1/2 
为临界点，去预测一个个案会不会被转介去就医。此处使用的折衷方式是把 
logistic 回归的截点当成归属值为0的上限，并且以95百分位点的不转介样本 
为中立点(归属值为1/2)。例如，在整体抽样里， A : 要素第95个百分位点的 
Xi 评分为 0. 5726。 logistic 回归对就医与整体样本的预 测是： 

In ( 户 /(I— 夕 ）） = 0. 1+2. llXi 

P = P (就医），隐含了当 P = 1/2时， Xi <0) =—0. 0452。第95个百分位点的非 
就医样本则是= 0.5726。根据这些基准所得到的线性过滤归属函数 
则是： 

m\ = max[0, min((Xi 一 Xi (0) )/2(Xi ⑽ 5 ) — Xi ⑻）， 1)] 

这个例子的结果是一个 0 到 1/2 的归属值之间，从第78到第95个百分位点的 
整体样本的“窗口”，然后是一个从1/2到1的就医样本，从第20到第79个百分 
位点。 

我们首先阐明这些归属函数之间就医样本与非就医样本的相关系数，并将 
其显示于表 6. 3中。非就医组多数的相关系数都比已就医组样本的相关系数高 
(在21个中占13个），就算我们用 tau 相关系数而不是 Pearson 的相关系数，结 
果也差不多。尽管这些差异不是很大，但这些相关系数还是可能使我们作出下 
列结论， S 卩非就医组的成对并发率比较高。这个结论可能大错特错。 
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表 6. 3非就医样本与就医样本的相关系数 


戒瘾生理问题焦虑/恐惧思虑失序无法集中 冒犯 攻击性 


戒瘾 

1 

0. 3377 

0.6117 

0. 4818 

0. 2873 

0. 1286 

0. 2474 

生理问题 

0. 3123 

1 

0. 5224 

0. 5077 

0. 1244 

0. 2084 

0. 2107 

焦虑/恐惧 

0. 5861 

0. 4551 

1 

0. 5690 

0. 1422 

0. 1867 

0. 2090 

思虑失序 

0. 4455 

0. 4646 

0. 4804 

1 

0. 4406 

0. 2304 

0. 3759 

无法集中 

0. 4632 

0. 2686 

0.3161 

0. 5615 

1 

0. 1836 

0. 5316 

冒犯 

0. 1949 

0. 2823 

0. 2474 

0. 3021 

0. 2534 

1 

0. 1757 

攻击性 

0. 3953 

0. 3062 

0. 3075 

0. 4372 

0. 5279 

0. 2306 

1 


表 6 . 4 显示了两个样本的平均数与其比率的比较，一如预期，在每个症状的 
平均归属值方面，就医组都比非就医组明显偏高。表 6 . 5 显示了两组样本的成 
对并发率(用乘积算式)与两者相较的比率，组间每种并发率的相对比率都远高 
于个别症状的相对比率。因此很清楚，无论是粗并发比率还是相对并发比率， 
就医组都比非就医组高得多。 


表 6. 4非就医样本与就医样本的平均数 




平均数 


平均数(就医样本） 


比 

率 

戒瘾 


0. 0743 


0. 4974 


6. 6955 

生理问题 


0. 0909 


0. 3107 


3.4164 

焦虑/恐惧 

0. 0757 


0. 5185 


6. 8488 

思虑失序 


0. 0686 


0. 5279 


7. 6994 

无法集中 


0. 0725 


0. 5672 


7.8178 

冒犯 


0. 0594 


0. 2761 


4. 6441 

攻击性 


0. 0681 


0. 5535 


8. 1245 


表 6. 5 

非就医样本与就医样本的成对并发症与其比率 






并发症 





戒瘾 

生理问题焦虑/恐惧思虑失序无法集中 

冒 

犯 

攻击性 

戒瘾 

1 

0. 1957 

0. 3494 

0. 3338 0. 3247 

0. 1509 

0. 3124 

生理问题 

0.0174 

1 

0. 2281 

0. 2284 0. 1920 

0. 1046 

0. 1990 

焦虑/恐惧 

0. 0262 

0. 0223 

1 

0. 3623 0. 3162 

0. 1638 

0. 3199 

思虑失序 

0. 0205 

0. 0217 

0. 0216 

1 0. 3674 

0. 1710 

0. 3508 
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续表 



戒瘾 

并发症 

生理问题焦虑/恐惧思虑失序无法集中 

冒犯 

攻击性 

无法集中 

0. 0220 

0.0159 

0. 0167 0. 0246 

1 

0. 1767 

0. 3969 

冒犯 

0. 0097 

0. 0128 

0.0111 0.0120 

0.0112 

1 

0. 1723 

攻击性 

0. 0186 

0. 0163 

0. 0156 0. 0192 

0. 0232 

0.0101 

1 




并发症比率 





戒瘾 

生理问题焦虑/恐惧思虑失序 

无法集中 

冒犯 

攻击性 

戒瘾 

1 

11.2181 

13. 3414 16. 3212 

14. 7685 

15. 5718 

16. 7976 

生理问题 


1 

10. 2231 10. 5201 

12. 0800 

8. 1825 

12. 1933 

焦虑/恐惧 



1 16. 7753 

18. 9229 

14. 7207 

20. 5270 

思虑失序 



1 

14. 9588 

14.2156 

18. 2309 

无法集中 




1 

15. 7146 

17. 0892 

冒犯 





1 

17. 0961 

攻击性 






1 


事实上，所有3种并发率的测量都显示就医组的数字高得多，表 6. 5中的平 
均粗并发率是 14. 737( 范围在 8. 183与 20. 527之间），因此可以算出平均相对 
并发比率是 2. 394( 范围在 1. 366到 3. 682之间）。最后，对就医组来说，共变异 
数也偏高，平均比率为 3. 392( 范围在 1.699 到 5. 399之间）。因此，即使把高症 
状比率计算在内，就医组还是比非就医组的成对并发率高得多。这个以共同发 
生率为基础，与相关系数简单且明显矛盾的“并发率”的比较，显示了模糊集合 
取向计算并发率时的优势。 

当并发率包括超过两种症状时，模糊集合取向的优势更加明显。为了展示 
这一点，表 6. 6显示了 6种或7种并发症出现的情况，在这个例子（同样只是为 
了说明)里，我们用极小算式来测量并发率。这个表格显示了两个明确的趋势， 
首先，就医组里高得多的并发率倾向仍然持续，而且事实上显示出比成对的并 
发率更高的一致性。表中粗并发率平均值是 18. 068,而其相对并发比率平均值 
则是 2. 833,这些平均数稍高而变异数则稍低。出现这种情况的原因是，任何6 
种症状归属值非零且7种症状归属值也非零的时候，表 6. 6中的6种症状与7 
种症状归属值的平均数非常类似。有6种症状时，平均并发率有相当大的增加， 





模糊集合理论在社会科学中的应用 


439 


大多数例外出在冒犯的指标中，这就把我们引到模糊集合取向的第二个清楚的 
趋势，那就是除了两组样本并发比率明显不同之外，两边都包含了多种症状同 
时出现的案例。这个趋势在7种症状中的6种中存在，与冒犯的情况相比时特 
别明显。 


表 6 . 6 非就医样本与就医样本的 6 种及 7 种并发症 


多重症状 

原始值 

原始值 

原始值比率 

相对值 

相对值 

相对值比率 

7种症状 

0. 0047 

0. 0843 

17. 9515 

0. 0516 

0. 1486 

2. 8782 

戒瘾除外 

0. 0051 

0. 0935 

18. 1670 

0. 0566 

0. 1648 

2. 9127 

生理问题除外 

0. 0051 

0. 1110 

21. 6250 

0. 0678 

0. 1956 

2. 8865 

焦虑/恐惧除外 

0. 0053 

0. 0888 

16. 6792 

0. 0585 

0. 1565 

2. 6742 

思虑失序除外 

0. 0049 

0. 0869 

17. 8615 

0. 0535 

0. 1532 

2. 8638 

无法集中除外 

0. 0054 

0. 0935 

17. 2009 

0. 0598 

0. 1690 

2. 8258 

冒犯除外 

0. 0078 

0. 1382 

17. 6638 

0. 0861 

0. 2437 

2. 8320 

攻击性除外 

0. 0054 

0. 0940 

17. 3960 

0. 0594 

0. 1657 

2. 7891 


此外，对两组样本并发率比较的一种有效交互检查是与“单一”症状发病率 
进行比较。例如，某人有症状 Ai 但是没有任何其他并发症的程度可以用 
minCwAi , 1 — min (» jA2 ， mA ^, •••, WA7 )) 来测量。在表 6. 7中，我们可以看 
到，对就医组与非就医组来说，粗单一症状平均数其实相当接近，就医组平均值 
其实只稍高一点。然而，用表 6. 4中的粗症状平均数比例来把平均值标准化，结 
果非就医组单一症状归属值的比例却相对更高，这个发现与从就医组得到的高 
并发比率相同，因为这显示了较低的单一症状比率。 


表 6. 7非就医样本与就医样本的单一症状平均值与几率 



平均值 

几率 

平均值(就医） 

几率(就医） 

戒瘾 

0. 0457 

0. 6158 

0. 0575 

0. 1155 

生理问题 

0. 0682 

0. 7499 

0. 0383 

0. 1233 

焦虑/恐惧 

0. 0488 

0. 6452 

0. 0641 

0. 1236 

思虑失序 

0. 0392 

0. 5711 

0. 0495 

0. 0938 

无法集中 

0. 0430 

0. 5930 

0. 0818 

0. 1442 

冒犯 

0. 0469 

0. 7896 

0. 0502 

0. 1818 

攻击性 

0. 0429 

0. 6303 

0. 0786 

0. 1419 
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最后，为了比较样本或模型参数，我们将简单展示高并发率如何由模糊交 
集构成，并且与标准统计分析技巧相连。假设我们想比较就医组与非就医组在 
7种症状集合里的并发比率。如我们已知的，与非就医组相比，就医组样本有高 
得多的累积分布函数。如果我们把归属程度当做一个“风险”变量，而把累积分 
布函数的倒数当成一个“生存”率，则我们可以用标准化的 Kaplan-Meier 分析与 
对数层级检验来比较两组分布，并得出 1101.61 的卡方检验值.其表示两组累积 
分布函数的倒数相当不同。 

然而，我们可以用第4章里简单介绍过的删截分布取向来处理两个样本的 
分布。我们可以用双限 tobit 模型 （ Long ， 1997:205— 212) 加上一个潜 变量: y 
(其删截的截点是0与 1) 来处理这些数据。对删截的观察值 来说： 

Pr(y <0 丨 j:,.) = <£>(-— ^xi/ai ) 

Pr(jy, ^ 1 I x, ) = 1 — 0( 1 —) 

0是标准化的正态累积分布 函数; 若第：个案例是非就医者，则: r , = 0,若是就 
医者，则 : n = 1; a , 是非就医样本或就医样本的标准差。对非删截观察值 来说： 

yi — y 3 r / + e ,' 


e , •是 iV (0， tr ,') 的分布。 

空模型加上一个同方差模型(% 2 (1) = 699. 60, p < 0 . 0001) 之后确实大幅 
改善，加上异方差后，改善反而不显著 ( X 2 ( l ) = 0. 106, p = 0 . 745)。最终模型 
估计一个删截分布，其中，非就医样本的平均值是一 0. 684,就医样本的平均值 
是一 0. 140,两者的标准差是 0. 351。由于样本规模相当大，所以这些相关系数 
的标准误大约是0.02。0的截点上包括了 97. 43%的非就医案例（与数据中的 
97. 5%相比)与 65. 47%的就医案例(与数据中的 65. 87%相比），构成了一个突 
起。1的截点上低估了另一个突起，包括了 0. 00008%的非就医案例(与数据中 
的 0. 147%相比)与 0. 059%的就医案例（与数据中的 0. 350%相比）。图 6. 2显 
示了最终模型潜在的概率分布函数。 
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图 6. 2就医样本与非就医样本7种症状的归属函数 


这个结果的一种解释是，在极小算式下,7种症状的归属函数可以被当成一 
种真正频宽的过滤器而不是一种模糊集合的扩张器。对另一个例子，如戒瘾与 
焦虑/忧郁儿童的集合来说，则更像是扩张器。我们可以用一个同方差双限 to - 
bit 模型来估计模糊交集的极小算式，其分布的非就医样本的平均 值是一 0. 408, 
而就医样本的平均值是 0. 278,两者的标准差都是 0. 403。然而，此交集却是异 
方差的(% 2 (1) = 11. 126, p = 0 . 0009)，对非就医样本来说，平均值为 一0. 493, 
标准差为 0. 473,对就医样本来说，平均值为 0. 279,标准差为 0. 392。这些发现表 
明， A ! RA 3 的归属函数行为更像是扩张器而不是简单的频宽过滤器。 


多重与部分并集与包含 


在案例 6. 4中，当我们计算单一症状比率时，我们其实已经遭遇了“部分排 
除”的集合归属值，即一个人没有其他症状，但只有其中一种时的归属程度，亦 
即一种成分多余就可以造成部分交集的概念。令 { A ,} 为 ）= 1, …，_/的一群集 
合，共有 N 个观察值，令第 7 个集合 的第〗 个观察值为 mo , 当其他集合被移除 
时，集合 A « 与的部分交 集为： 

mi g h.j= min(min, m* ),1— maxij ) [6. 8] 

此处， maxij = maxj ^ g, hXmi ]) 。 



社会科学中的 B 理基碥及应用 


用文字来表示，这是指集合与 Aa 与其他集合有交集的部分，当 g =六 
时，我们就回到了单一症状的例子。 

部分包含系数可以参考史密生 （ Smithson ，1987:162—163； 1994： 17—18) 
的讨论以及其对包含测量而非模糊逻辑的暗示意义。部分包含测量了关键集 
合与其他集合交集的比例，但不是一些其他集合的 并集： 

Ihg/J = [6.9] 

另一方面，分部包含测量的是以 max ^ 来表示其他集合的并集被移除之后， 
关键集合的最小部分，也就是与第二个集合交集，但非与其他集群的并集 部分： 

Ihg . ； = X ) j / 2 ^ 1 ，- min ( m ^, 1 — max ；; ) [6. 10] 

另一个有用的比率是部分交集除以粗 交集： 

Ihg/J = 2 i m ig *. / / 2 , min (, mih ) [6.11] 

多重交集指的是任何集群内基本的或组合成的交集。我们已经在案例 6. 4 
里遇上了以6种或7种症状并发比率的形式表现的多重交集。多重交集里一个 
有用的特例是一个关键集合与其他集群交集或并集的交集。相应的多重包含 
系数可以被简单定义为一个多重交集包含关键集合的比例。 

案例 6 . 5: 儿童治疗症候群的分部与部分包含 

为了展示前面所提到的概念如何运用，我们回到案例 6. 4所引用的儿童治 
疗数据，并主要关注 A 3 =焦虑/忧郁与 A 4 =思虑失序的交集。在探讨单一症 
状比率时，假设我们希望找出其他症状的归属值被移除时， A 3 与 A 4 之间的交 
集还有多少，就医样本里高度多重症状的比率显示，我们应该预期在就医样本 
与非就医样本相比时，剩下的交集比例相对较少。 

这正是本案例所显示的。对就医样本来说，叫 3 W 的平均值是 0. 0598,而对 
非就医样本来说则是0.0190, A 3 与 A 4 的平均部分交集在就医样本里确实较 
大。然而，与义 4 的平均粗交集（用的是极小算式）对就医样本来说是 
0. 3958,对非就医样本来说是 0. 0311。从公式 6. 11中我们可以得到，就医样本 
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的 I i3 /J = 0. 598/0. 3958 = 0. 1511，非就医样本的 hyj = 0. 0190/0. 0311 = 
0.6109。因此，当有其他症状的归属值被移除后，就医样本只剩下15%的交集， 
对非就医样本来说却还有61%。在非就医样本中，焦虑/忧郁与思虑失序的交 
集倾向不包括任何其他症状，但就医样本却包含多种症状。 

进行类似比较的另一种方式是用部分交集系数。对就医样本来说，焦虑/ 
忧郁的平均归属值是 0. 5185,对非就医样本来说是 0. 0757。对就医样本来说， 
焦虑/忧郁被包含在与思虑失序之交集里的比例是 0. 3958/0. 5185 = 0. 7634, 
当其他症状被移除时，这个数据就明显减少到 J 43 /J = 0. 0598/0. 5185 = 0. 1153。 
对非就医样本来说，焦虑/忧郁被包含在与思虑失序交集里的比例是 0. 0311/ 
0.0757 =0.4108,但是当其他症状被移除时，这个数据减少到 h 3/J = 
0.0190/0. 0757 = 0. 2510。 

最后，这个例子也显示了包含与部分包含之间非常不同的视角。对就医样 
本来说，2 ,. min ( m ;3 ，1 — max ；; ) = 0. 0894，而对非就医样本来说， 
H . min (/ n ,. 3 ， 1 — max ,/ ) = 0. 0536。从公式 6. 10中我们可以看到，就医样本的 
分部包含系数是 hxj = 0. 0598/0. 0894 = 0.6689,而对非就医样本来说， 
h 3 .j =0. 0190/0. 0536 = 0. 3545。这个形态与上一段计算的粗包含系数的数值 
非常类似，也就是说,在两个集合与其他症状的交集被从关键集合与其交集中 
移除之后，焦虑/忧郁与思虑失序的包含关系仍然很稳定。 



在这本书中，我们从社会科学的很多概念同时保有分类与向量性质的观察 
开始，用一种系统且有价值的方式来表达结合了集合论与连续变量观点的模糊 
集合理论。我们希望能够再次强调引用模糊集合的概念与技巧及其与其他技 
巧结合可能产生的潜力。例如，许多非连续的潜在特征与潜在阶级模型都包括 
“评分一响应”模型 （ Heinen, 19%) 以及建构归属函数的方法 （Manton et al . ， 
1994 )。 

此外，虽然在第 3 章里，我们只提及了研究模糊集合的随机集合取向（尽管 
第 5 章里的稳定包含路径也可以这样解释），但用随机集合的想法为基石来处理 
模糊概率与统计方法的整个体系已经被建构起来。最近，一本讨论模糊概率与 
统计运用的书提供了结合模糊集合与统计的方法，以加强我们处理不确定性的 
能力。 

社会科学家对本书所展示的部分模糊集合概念并不熟悉，而且只有时间能 
告诉我们这些概念的用处。例如，第4章所探讨的模糊性与变异数虽然相关却 
又有不同，虽然引进模糊性可能对很多研究目的有用，但是只有在比较了使用 
模糊性与变异数的优劣之后，研究者才可能决定哪一种是最佳方法。另外，包 
含或模糊集合取向处理并发率等概念，已经直接给予了我们很多新启发与结 
论，这是传统统计分析不曾做到的。第 5 章与第 6 章的案例大大展示了这种 
好处。 

如第 3 章所建议的，在模糊集合的辩护者与那些认为概率论足以处理任何 
不确定性的批评者之间，仍有持续的争辩。我们认为，模糊集合理论提供了一 
些概率论无法提供的想法，但我们绝不建议抛弃概率论的运用，并且我们也认 
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识到，这些架构的角色尚未厘清，还有丰富的应用可能性。模糊集合理论在以 
下几方面有重大 意义： 

首先，应当思考哪一种途径在概念上更有道理，并能导致最大的清晰度。 
如果分类归属值的概率模型比模糊归属程度模型更能澄清一个研究问题，则概 
率模型 更佳; 若正好相反，则应选择模糊模型。否则，就像我们在第5章里观察 
到的，如果预测是主要目标，则回归模型应该是最佳途径。但是遇上包含或其 
他集合之间的关系，当必要与/或充分条件是基本的关注点，则模糊包含模型可 
能更佳。 

其次，当有疑问时，我们应尝试两个视角，并且比较双方的表现。由于不同 
视角可能带来对表现的不同测量方式，如回归对包含模型的例子，所以这个做 
法可能很难推行。然而，如我们在第6章里展示的延伸并发率的例子那样来比 
较评估两种不同分析方式对同一组数据的效果，在直觉基础上询问哪一种分析 
能捕捉到更多有用且具启发性的结果仍然是可能的。 

第三，应铭记在心的是，事实上,任何给定的数学模型通常都有两个不同的 
部 分:系 统性的变异与噪声。模糊集合理论提供了一种将理论转变成模型的新 
可能性，而且可以用现代统计估计与模型比较技巧加以检验。也就是说，它允 
许对系统化的关系提出一种新颖的群集，并且像模糊包含一样可以被检验。然 
而，模糊集合理论在如何处理含有误差的测量方面没有提出什么方案。把归属 
值当成一个随机变量并且运用既有的技术，如用最大拟合度去检验新模型，提 
供了一种严格处理噪声的工具。 

我们希望本书所展示的这些内容可以刺激研究者与方法学家去进一步发 
展与运用模糊集合，并将其与其他量化或质化技巧结合。从传统的假设检定到 
数据探索的巨大范围之间，我们相信这种发展的潜力将是无穷的。 
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序 


社会不平等在定性和定量社会研究中一直为古典和现代社会理论家所讨论。不平 
等也许是社会科学的中心话题。 

社会不平等的定量评估是郝令昕和丹尼尔 • 0.奈曼专著的主题。作者特别关注不 
平等，比如，收入或财富在不同社会之间、同一社会的不同群体之间以及时间维度上的比 
较。这一话题根据预设读者只有些许数学和统计学背景的原则来展开。 

郝令昕和奈曼介绍了众所周知且使用广泛的洛伦兹曲线和不平等的基尼指数，并且 
系统地提出了更具一般性的不平等测量的原理和标准，但他们强调了对整体分布进行比 
较的方法。比如，除了对平均值的关注,作者将不平等研究与分位数回归方法联系起来， 
这一方法描绘出收入等反应变量的条件分布，而不仅仅是其中心如何随性别、种族和教 
育等解释变量而变化。 

社会不平等的定量研究往往建立在复杂社会调查基础之上，这类调查中的抽样误差 
是不可忽略的，而且一般教科书中基于独立随机抽样的推断方法并不适用于这类调查。 
因此,郝令昕和奈曼将他们的讨论与可用软件联系起来，介绍了适用于以此类数据对不 
平等测量进行统计推断的方法。他们的讨论同时包括标准的渐进方法和一种基于自举 
法的方法。 

本书广泛的内容和详尽易懂的讨论，将为在这一重要领域中从事工作的研究者提供 
巨大的帮助。 
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第 1 章 I 导论 


本书有两个目标。第一，回顾一系列被广泛使用的概要不平等测量和不为 
大家所熟悉的相对分布方法，介绍每一个测量和方法背后的基本原理，并对它 
们的联系进行讨论。第二，本书介绍了一项技术，以分位数回归来对时间维度 
上的不平等进行基于模型的分解。这一基于模型的方法使我们能够对两个时 
点之间导致不平等变化的两个不同因素进行评估。一个是促成因素，它指协变 
量的构成变化，另一个是在给定协变量的情况下，反应变量的条件分布的变化。 

社会不平等是社会科学的核心。社会学长期以来一直关注由社会结构所 
塑造的资源和机会上的个体和群体之间的不平等 （ Blau ， 1977)，并论述过不平 
等概要测量的理论和方法论意蕴 ( Allison ， 1978)。已有大量经验研究围绕着资 
源和健康上不平等的模式、趋势、原因和后果来展开讨论。有大量文献讨论过 
如何测量不平等。研究者们创建了诸多概要不平等测量，并已将它们应用于经 
验研究中，比如，基尼系数、变异系数、方差的对数、泰尔不平等指数、阿特金森 
指数、广义熵等。然而，对这些测量的介绍却并不总是与社会科学家们所熟悉 
的概念相联系。另外，测量之间的关系也未得到明确说明。比如，我们可能想 
知道，为什么基尼系数强调了分布的中间部分，应当如何将基尼系数与广义熵 
进行对比或者如何协调多个不平等测量的使用。此外，在趋势研究中，人口构 
成和属性的分布往往同时变化。因此，有必要将构成变化和条件分布的变化区 
分开来。本书试图就这些问题进行讨论。 

我们以平等——不存在不平等的方式，来定义不平等。平等意味着资源的 
均匀分布，其中，一个人群中的每个人都能获取相同数量(按绝对量计算）或相 
同份额(按相对量计算）的某一资源，比如，收人或财富或诸如健康这样的福利 
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测量。平等在真实世界中很少存在。已有的不平等研究试图量化不平等的程 
度。请注意，平等和公平是不同的概念。公平关注的是整个社会的福利，认为 
资源的分配无需平等。如果社会中的某些成员变富且没有人变穷，那么，这个 
社会的总福利就被认为更大。在随后的章节中，我们将会再次谈到不平等和社 
会福利之间的区别。 

我们将社会之间、社会群体之间或时期之间的分布差异视为不平等。作为 
一种人口属性的不平等可以用多种方式进行测量，包括概要不平等测量。研究 
者会使用诸如基尼系数或泰尔指数等概要测量对两个或多个分布的形状进行 
比较。其他不平等测量将两个或多个分布之间的其他差异加以量化，包括中心 
位置(均值或中位数）、尺度（标准差或四分位距）以及形状（偏态或峰态）。比 
如，在对今天和10年前收人分布的比较中，有3种情形可以说明这些分布的属 
性的改变 :第一 ，每一家庭户都获得某一固定额度的增量，从而导致一个纯粹正 
的位置改变和概要不平等测量的减小（比如，更小的基尼系数）。第二，每一家 
庭户都获得某一固定百分比的增量，导致正的位置改变以及尺度增大，而特定 
的一套概要不平等测量却并未发生变化（比如，基尼系数没有变化）。第三，处 
在分布下半部分的家庭户比处在上半部分的家庭户经历了一个更小比例的收 
益(正如美国的收人分布自1973年以来所出现的情形），导致正的位置改变、尺 
度增大、右偏态更大以及概要不平等测量的增大（比如，更大的基尼系数)。不 
同概要不平等测量之间的相互关系可以通过将它们与位置、尺度和形状改变相 
联系而变得更加清楚。 

本书的主要目标在于，提供从分布属性的角度来测量不平等的基本原理。 
我们将介绍3套不平等测量: （1) 概要 测量; （2) 基于分位数的 测量; （3) 基于相对 
分布的测量。由于存在大量有关不平等测量的文献，因此，很难决定这些测量 
孰去孰留。本书没有纳人贫困和集中测量或流动指数。我们认为，最重要的变 
量为连续变量，因此，我们只考虑如何基于连续变量来测量不平等。考虑到大 
多数社会科学家都经常且习惯于谈论分布属性（比如，均值/中位值、方差、偏态 
和峰态），因此，我们就利用了对这些概念的熟识性。我们会介绍所纳人的全部 
不平等测量的主要性质，并讨论它们的优点和不足。同时，我们避免对哪些测 
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量更优这样的问题作出判断。 

一些研究者已经介绍过对时期之间不平等来源进行分解的方法。使用非 
基于模型的分解方法已经可以在趋势研究中，将条件分布的变化从协变量构成 
变化中分离岀来 （ Cowell ， 2000)。一个替代方法是基于回归模型的分解 
( Oaxaca , 1973) 及其对残差所进行的现代处理 （ Juhn，Murphy &- Pierce , 
1993)。这一方法受到限制，因为它被局限于条件均值框架。密度分解上的开 
创性发展将概要不平等测量直接与它们所描述的密度函数联系起来 （ Autor ， 
Katz &- Kearney , 2005； DiNardo , Forth &- Lemieux , 1996)。 基于分位数回归 
的分解方法 （Machado Mata , 2005) 建立在分位数回归分析之上 （Hao 

Naiman , 2007； Koenker , 2005) ，它提供了一种更灵活的方法用于基于模型的分 
解。本书将介绍分位数回归如何能被用来区分不平等测量变化趋势中的构成 
成分和条件分布成分。 

通过与连续反应变量 Y 的分布相联系的一个量，本书从头至尾都在讨论与 
不平等的测量和分析有关的问题。第2章介绍分布之间的位置、尺度和形状改 
变以及这些改变如何将它们在概率密度函数 ( PDF ) 、 累积分布函数 ( CDF ) 和分 
位数函数中显示出来。该章也会介绍标准的洛伦兹曲线和广义洛伦兹曲线以 
及分位数函数与洛伦兹曲线之间的关系。第3章对一套使用广泛的概要不平等 
测量进行回顾。第4章讨论如何基于5项原则在诸多概要不平等测量之间进行 
选择，以及洛伦兹占优如何可被用来指导选取最少量的一套不平等测量，对不 
同人口进行比较。第5章讨论作为测量和分析不平等的灵活工具的相对分布方 
法。在第6章中，我们讨论了应在怎样的条件下使用渐近推断方法或自举推断 
方法以及如何基于调查数据得到不平等测量的标准误和置信区间。第7章致力 
于介绍不平等趋势中非基于模型和基于分位数回归模型的分解。应用本书所 
介绍的大部分技术，最后一章将给出一个真实世界的研究范例，对1991年和 
2001年家庭户收人和财富不平等进行考察。 

适合于不平等研究的结果变量的例子出现在若干领域中。人们可能对以 
下内容感兴 趣:经 济福利一这会引发对收入或财富进行 考察; 学业成绩—— 
这可由标准化测试分数加以 测量; 以诸如体重指数这样的量来描述健康。在本 
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书中，我们将家庭户收入作为一些包含正数取值变量的例子，用家庭户财富作 
为一些包含正数、0和负数取值变量的例子。尽管分析单位可以是个体、家庭或 
家庭户，但我们选择家庭户作为分析单位，因为这些资源由家庭户成员共同分 
享，并且我们对作为整体的家庭户福利水平感兴趣。家庭户特征以户主的种 
族、教育和年龄以及家庭户类型和居住地进行测量。收人或财富的比较基于不 
同社会群体或两个时点之间的美国人口来进行。处于不平等不断增加时期的 
美国1991年和2001年“收人与项目参与调查” (SIPP) 提供了用于举例说明的 
经验数据。数据、 Stata 程序和各章的证明附录都可在本书作者的网站上找到： 
www. ams. jhu. edu/ 〜 hao/INEQ_Book 0 



第 2 章 I 概率密度函数、累积分布函数、 

分位数函数和洛伦兹曲线 

.. :' ... ... ... 二 ... . … ：. .. : 


第2章的目的是在宽泛意义上为某一人口特征的分布属性(诸如集中趋势、 
离散度、偏态和峰态）和不平等测量之间的联系奠定基础。我们用一个假设数 
据来说明位置改变、尺度改变或形状改变等分布上的变动如何反映在均值、方 
差、偏态和峰态的变化上。然后，我们简要回顾概率密度函数和累积分布函数， 
介绍分位数函数，最后基于分位数函数来介绍洛伦兹曲线。洛伦兹曲线提供了 
可将诸多概要不平等测量统一起来的共同基础。 

秩、概率密度函数、累积分布函数和矩 

我们以收入为例作为感兴趣的特征变量。将对个体；观测到的收人数据记 
为％，那么，全部的观测收人数据(未排序的情况下)可记为 W ， …，％。当个体 
的收人被从低到高加以排序时，就得到了有序值 XI )，…， J 00。 个体收入的 
“秩”指的是个体收人在有序值之间所处的位置。秩对分析和研究分布属性很 
有用。彭 ( Pen ) 在其1973年提岀“高矮排队法”的文章中，提出将收人想象成身 
高和从矮到高列队的个体。该列队呈现为一条非降的曲线。在“高矮排队法” 
中，侏儒(极低收入的个体)和巨人(极高收人的个体)引人注目。我们使用的所 
有基本工具，包括概率密度函数、累积分布函数、分位数函数和洛伦兹曲线，都 
可建立在排序数据的基础上。 

个体收人 Y 的概率密度函数 / y 曲线下方的面积反映出各收人取值区间的 
相对频数，从而完整地描述收人的概率分布。累积分布函数 PV 描述累积概率， 
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即对于任一给定的收人> Fy (: v ) 会给出收人小于^的概率。出于纯粹举例说 
明的目的，我们生成了一个假设具有对称分布的收入变量 y ( Q ) (把它称为“原 
始”数据），图 2. 1呈现了它的概率密度函数和累积分布函数。累积分布函数上 
与图 2. 1( b ) 中的某个^相对应的^表达了图 2. 1( a ) 中概率密度函数下直到^ 
点处的面积。直观地来看，我们可以看到中心位置位于何处、分布有多离散(尺 
度）以及分布的形状是对称的还是偏态的。对于如图 2. 1所示的正态分布而言， 
概率密度函数的形状呈轴对称，而累积分布函数的形状则呈中心对称。 



图 2.1 收入的假设正态分布的概率密度函数和累积分布函数 

为了更好地理解分布的特征，我们来考虑如何以概率密度函数和累积分布 
函数来刻画位置、尺度和形状改变。首先，位置改变源于对人口的每一个成员 
增加或减少某一固定额度的资源。当对增加某一常数 a 得到了 y ⑴时, 
y (1) = a + yw > ，我们将 y ⑴定义成的位置改变。比如，当每个人都得到相 
同额度的额外收人时，结果就是出现一个正的位置改变。但是，对每个人征取 
相同额度的税则会导致一个负的位置改变。其次，尺度改变源于以某一固定比 
例增加或减少每个人的资源。如果是将乘以某个正的常数 c 而得到 
的，那么 = cY ^°> ，我们将 y ⑵定义成的尺度改变。比如，每个人可能都 
从其雇主处得到某个固定比例的工资上涨。再次，形状改变源于以不同的量增 
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加或减少某个总体中成员的资源。尽管起初是个对称分布，但如果位于此分布上 
半部分的个体比那些位于下半部分的个体得到了更高比例的增量，那么该分布将 
向右偏。反之，如果具有更高收人的个体要缴纳更髙的税，那么，该分布将向左偏。 
因此，根据个体收人的不同来将其收人乘以不同的系数能够导致反称性改变。 

图 2. 2将4种改变(位置、尺度、右偏态和左偏态）的概率密度函数和累积分 
布函数与收人的原始正态分布的概率密度函数和累积分布函数进行了比较。 
为了便于比较，我们用共同的 i 和: y 取值范围画岀这些函数。图 2. 2( a ) 中的子 
图显示：（1)正的位置改变使概率密度函数向右 移动； （2) 尺度改变使概率密度 
函数向右移动并使其变得 更宽; （3) 右偏改变使概率密度函数向右移动，并使其 
上半部分比下半部分宽 更多; （4) 左偏改变使概率密度函数向左移动，并使其下 
半部分比上半部分宽更多。位置改变和尺度改变之后，概率密度函数仍是对称 
的，但右偏态和左偏态改变之后，它就变成非对称的了。 

图 2. 2( b ) 将5个累积分布函数呈现在一幅图中。实线描绘了收入的原始 
正态分布。虚线为位置改变，与实线平行且位于其右边。点线描绘了尺度变 
化，它不再与实线平行，且上半部分比下半部分向右移得更远。右偏改变曲线 
(长划线）的上半部分向右移得更远，而其底端仍然靠近原始曲线。左偏改变曲 
线(短划线)向左移动，其上半部分移动得更远而其下半部分仍然靠近原始曲 
线。尽管位置和尺度改变后的累积分布函数仍保持对称性，但右偏和左偏改变 
后的累积分布函数则不再保持对称性。与概率密度函数的模式相比，累积分布 
函数的模式具有不同的外观。了解累积分布函数模式有助于我们将已经熟悉 
的概率密度函数与不熟悉的分位数函数联系起来。 

概率密度函数的属性可以用“矩”从数值上加以描述。每一个矩就是 Y 的 
某次幂的期望值，即々阶矩，被定义为 E [ Y ^] 0 一阶矩就是均值(或期望值） " = 
E [ y ], 它被用来描述一个分布的集中趋势。更高阶矩 （ k = z , 3, -) 描述了分 
布更复杂的属性，且在以均值进行对中的情况下通常更易于理解和解释，即考 
虑中心矩便于我们理解分布。々阶中心矩£：[(7—^)幻被定义成 Y 和;《之间差 
值的是次幂的期望值。二阶中心矩(方差） 〆 = E[(Y — ^) 2 ]， Y 和"之间差值 
平方的均值测量了离散度(尺度）。方差的平方根 a 被定义成分布的标准差。 
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(b) 

图 2. 2收入的假设正态分布及其4种改变的分 布:概 率密度函数和累积分布函数 
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对具有不同尺度的分布的更高阶中心矩进行比较可能较为困难，因此，我 
们通常将分布加以标准化，使其方差等于1，然后计算重新尺度化的分布的更高 
阶中心矩。因此，々阶标准化中心矩便可通过将々阶中心矩除以 V 得到，故它 
具有 E [( Y ~ ju ) k ^ 的形式。三阶标准化中心矩具有 fOy —") 3 ]/ 〆 的形式， 
这个量被定义为“偏态”。当分布围绕着均值对称时，偏态取0值。负值意味着 
左偏态，而正值则意味着右偏态。 

同样，四阶中心矩得到量 £[(Y —//) 4 ]/ a 4 ，被称为分布的“峰 态”。 对于高 
斯(正态)分布而言，其峰态系数是3。如果峰态系数大于3,那么，这个具有比高 
斯分布更高峰点的分布被界定为“尖峰” [1] ;当峰态系数小于3时，则为“扁平 
峰”。更高阶矩在描述分布属性中不常被使用。 

变量的线性转换能够引起一阶和二阶矩(均值和方差)上的变化。[ 2 ]如果 Y 
具有均值"和方差 < T 2 , 那么， y * = a + cy 的均值和方差分别为 a +屮 和 C 2 ff 2 。 
但是，由于对中和标准化，标准化的中心矩（比如，偏态和峰态)并不受线性转换 
的影响。 

表 2. 1的第一行列出了所生成收人数据 ( W ) 的4种矩。均值为49051美 
元，标准差为10156美元，偏态为0,峰态为3。第二行到第五行显示了 4种改 
变——位置、尺度、右偏和左偏 -一 的每一转变之后所得概率分布的矩。每个 
人的收人增加10000美元所引起的位置改变将使均值上升10000美元，但并未 
改变原始分布的标准差、偏态和峰态。由每个人的收入增加50%所引起的尺度 
改变同时使均值和标准差上升，但是，它既不改变偏态也不改变峰态。位置改 
变和尺度改变都属于原始变量的线性转换，因此并不影响偏态和峰态。由增加 
某一百分比所导致的右偏改变会导致原始分布的4个矩都发生变化——更大的 
均值、标准差、偏态和更小的峰态，左偏改变则恰好相反。 

表 2. 1的最后一列对基尼系数加以比较，基尼系数的值越大表明越不平等。 
尽管基尼系数将在下一章加以介绍，但这里对它们进行比较的目的在于表明， 
位置改变和偏度改变会在基尼系数的变化中反映出来，而尺度改变并不如此。 
因此，基尼是“尺度无关的”。 
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分位数函数 

分位数函数是用来测量不平等的另一个工具，正如本章开始所提及彭的 
“高矮排序法”一文中所看到的那样。收人累积分布函数的逆函数 Fy 就是分位 
数函数 Qy ， 且 Qi / 0 表明了 y 的取值，因此，对于取值为0到1之间的每一个可 
能的比例 P ， 有 Fy ^ y ) = po 

q ^» =Iy l (p) [ 2 . 1 ] 

因此，取值位于 <3^° 之下的人口所占比例为(对于更详细的定义，见《分位数 
回归 》， Hao &■ Naiman , 2007)。 


表 2.1 收入的假设正态分布的矩和基尼系数及其4种改变的分布 


分布 

均值 

标准差 

偏态 

峰态 

基尼系数 

原始分布 

49051 

10156 

0. 00 

3. 00 

0. 1167 

位置改变 

59051 

10156 

0. 00 

3.00 

0. 0969 

尺度改变 

73576 

15233 

0. 00 

3. 00 

0. 1167 

右偏改变 

76441 

29399 

0. 36 

2. 40 

0. 2193 

左偏改变 

43573 

6431 

一 0.45 

4. 30 

0. 0807 


对于假设的服从正态分布的收人数据 W Q) ，根据分位数函数得到的中心位 
置、尺度和形状可见于图 2. 3( a )。 分位数函数的 : r 轴和 j 轴将累积分布函数的 
相应数轴互换了位置。因此，不再要求给出某个特定^值处的累积概率/>，我们 
问的是某一特定 P 处的^值是多少。我们感兴趣的累积概率值 包括: P 50( 中位 
数) ，/>25、户50、多 75( 四分位数） ，/>20、/>40,户60、/ >80( 五分位数)以及/ >1，…， 
/ >99( 百分位数)。重新关注与给定累积概率相对应的分位数，有助于在模型的 
不平等分析中将收人当做因变量。正态分布的分位数函数的对称性与其累积 
分布的中心对称性很相似，即位于分位数函数下半部分的斜率，精确地映射出 
位于上半部分的那些斜率。正态分布会呈现一条与图 2. 3中一样的对称曲线。 

基于分位数的测量提供了测量中心位置、尺度和形状以描述分布属性的其 
他方式。众所周知的基于分位数的测量包括反映中心位置的中位数 ( p 50) 和反 
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映尺度或离散度的^25和 p 75 之间的四分互差。这可以灵活地扩展到不同的 
极差，比如，/>10和/>90之间或 pi 和沖9之间的极差。户50到/>90的极差与 
户10到 p 50 的极差之比反映偏态。由于使用均值和方差来刻画一个既非正态亦 
非对称分布的集中趋势和离散度是有问题的，所以，基于分位数的测量提供了 
一种比使用矩要丰富得多的方法来描述分布属性(请参见《分位数回归》中更详 
细的讨论 ， Hao Naiman , 2007)。基于分位数的不平等测量可被广泛应用。 
用中位数而非均值来描述收人分布的集中趋势是一种常见的做法。研究收人 
不平等的研究者们长期以来一直意识到，使用标准差来刻画偏态的收人分布的 
尺度的特征并不恰当。相反，收人的自然对数却经常被用来将偏态分布变成对 
数正态分布 （ Buchinsky ， 1994； Juhn et al . , 1993)。 

分位数函数能够清晰地刻画收人原始正态分布的 4 种改变的特征。在图 2. 3 
( b ) 中，实线描绘了原始分布。将每个人的收人增加10000美元所引起的位置变化 
使得曲线向上移动(虚线)，并保持对称性。给予每一个个体相同百分比的提高所 
取得的尺度改变使曲线发生倾斜(点线)，不过仍保持对称性。右偏改变后，曲线丧 
失了对称性(长划线)，其中上端尾部的斜率比下端尾部的斜率 更陡; 左偏改变后， 
曲线也丧失了对称性(短划线），其中上端尾部的斜率比下端尾部的斜率更缓。 



P 



-原始分布 •- 

••••••• 位置改变——尺度改变 

右偏改变 -• 

一… 左偏改变 


(a) (b) 

图 2. 3收入的假设正态分布的分位数函数及其4种改变的分布 :正态 分布和4种改变 
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洛伦兹曲线 


洛伦兹所介绍的洛伦兹曲线为基尼系数和其他尺度无关的常量不平等 
测量提供了一个共同基础。它能表明，对于取值为0到1之间的每一个可 
能比例化那些收人不超过该 p 分位数的个体总收人的比例。比如，对于 
^ = 0.25, 我们将所有位于^25或以下的收人取值加总，同时表达其占总收 
人的比例。 

最直接的洛伦兹曲线的计算可以用一个包含》个收人值 3 M ， 的样 
本来展示，首先将它们排序成 wn ， …， yw ， 然后 得到： 


L ( s / n ) = L ( p ) = 


2;二]凡) 


(i = 0, 1, 2, •••, n ； p = s / ti ) [2. 2] 


因此，比如 ，一 个样本包含了 100名个体，并且他们的收人都被从小到大地 
进行排序，然后我们将 U 0. 25) 定义成最低25名个体的总收人除以全部个体的 
总收人。[ 3] 洛伦兹曲线被限定在 0(.? = 0时)到 1(5 = n 时)之间。所生成的收人 
数据 ( W ) 的洛伦兹曲线如图 2. 4( a ) 所示。 _ r 轴表明总人数的累积比例轴则 
表明由对应的总人数累积比例所占的总收入的累积比例。对角的直线被称为 
“平等线”，表明每个人都拥有完全相同的收入份额情况下将会得到的结果。对 
平等的任何偏离都会导致洛伦兹曲线位于平等线下方。洛伦兹曲线对平等线 
的偏离越大，表明不平等程度越严重。 

洛伦兹曲线与分位数联系紧密，且可以使用分位数函数进行表述。对于一 
个收人分布具有以/表示的概率密度函数的人口，我们会以各分位数的一个函 
数来表达洛伦兹 曲线： 


Q { q)dq Q(p) 

= -fr - = — yf(y)<Jy [2.3] 

Q(g)dq 

J q --0 
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0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 
P 


-原始分布 

位置改变 

——尺度改变 

-右偏改变 

. 左偏改变 


( b ) 


图 2. 4收入的假设正态分布的分位数函数及4种改变分布的洛伦兹曲线 ：正态 分布和4种改变 






0 . 




根据图形，方程 2. 3可被理解成，图 2. 4( a ) 中 p 对应着的洛伦兹曲线 
上的收人份额就是图 2. 3( a ) 中分位数函数曲线下方直至 p 值处的面积，因为它 
被该分位数函数下的总面积标准化了，也就是平均值。正如图 2. 4( a ) 中洛伦兹 
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曲线所显示的，约40%的总收人为该人口下半部分所占有。如果以整个分位数 
函数下方的面积进行标准化，累积比例 0. 4就等于该分位数下方直至/> = 0.5 
处的面积。 

我们现在来考虑位置改变、尺度改变和形状改变对洛伦兹曲线的影响。对 
于一个幅度为 <2 (a > 0) 的正的位置改变，新的洛伦兹曲线不同于原始的 那条： 


L * is In ) 


2 - = i ( a +^(0) 

S"=i (a +^') 


a . s + 2.: =1 W) 

a * w + S " =1 ^- 


[2. 4] 


这一新的洛伦兹曲线位于旧的那条上方，即 L * ( s / n )> L ( s / n ), 即使一些 
收入并不相同。直觉上讲，正的位置改变使分子增加得比分母更多，因此使得 
洛伦兹曲线向上 移动; 而负的位置改变则使分子减少得比分母更多，因此使得 
洛伦兹曲线向下移动。附录中给出了这一事实的缜密讨论。因此，将每一个个 
体的收人增加一个相同的正数 a 具有降低不平等的效应。极端地来说，随着 a 
趋于无穷，洛伦兹曲线会接近于平等线。图 2. 4( b ) 中，正的位置改变使得原初 
洛伦兹曲线(实线)略微向上移动，更加接近平等线(虚线）。 

对于一个幅度为 cO >0) 的尺度改变，我 们有： 


S s sr\ s 

- • yco c2_j ;=} ya) y 

L "、 s / n ) = - - — -- = L ( s / n ) [2. 5] 

Zj, =1 c - yi c Z., =1 y«- 

因为以均值进行了标准化，故洛伦兹曲线并不会随着尺度改变而变化(第 4 
章中所讨论的尺度无关原则）。图 2. 4( b ) 显示，原始的洛伦兹曲线和尺度改变 
的洛伦兹曲线完全相同。相比而言，正如前一节所显示的，尺度改变可在概率 
密度函数、累积分布函数、矩和分位数函数中被察觉。 

洛伦兹曲线反映了形状改变。图 2. 4( b ) 中，右偏改变（富者越富)将洛伦兹 
曲线向下移至长划线处，更加远离平等线。左偏改变（富人被征收比穷人更多 
的税)将洛伦兹曲线向上移至短划线处，更加接近平等线。 

广义洛伦兹曲线被发展出来以反映尺度改变 （ Shorrocks ， 1980)。现在，令 
x 轴表示累积份额与平均收人的积。使用假设数据，我们在图 2. 5中展示了原 
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图 2. 5收入的假设正态分布的分位数函数及其尺度改变的广义洛伦兹曲线 

小结 

本章扼要地介绍了测量和分析不平等的4类基本工具。从适用于所研究属 
性的最为基础的概率密度函数工具开始讲起。许多研究者以查看属性的概率 
分布的形状作为其经验研究工作的第一步。概率分布的中心矩——均值、方 
差、偏态和峰态——刻画了该分布的中心位置、尺度和形状的特征，这些也为研 
究者广泛使用。累积分布函数是第二类工具，表示概率密度函数下方的面积。 


始正态分布的广义洛伦兹曲线及其通过将每个人的收入增加50%所导致的尺 
度变化所对应的广义洛伦兹曲线。原始分布的平均收入为49051美元，而其尺 
度改变的分布的平均收人为73576美元。这两个分布的常规洛伦兹曲线完全相 
同，但正的尺度改变对应的广义洛伦兹曲线位于原始分布对应的广义洛伦兹曲 
线的上方。而且，图 2. 5中的两条广义洛伦兹曲线表明，尺度改变的人口比原初 
的人口更富裕。 


原始分布 ——尺度改变 



(1 K *002 )铤 軼 
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累积分布函数的逆函数是分位数函数，这是我们的第三类工具。最后.第四类 
工具——洛伦兹曲线——被作为分位数函数的一个自然扩展而加以介绍，因为 
洛伦兹曲线表示分位数函数下方标准化的面积。广义洛伦兹曲线用于应对常 
规洛伦兹曲线的尺度无关性。 

适用于不平等研究的4类基本工具的核心要素是位置、尺度和形状改变，我 
们借助这些要素建立此处所讨论的4类基本工具之间的相互关系。此种相互关 
系有助于我们将下一章要介绍的各种概要不平等测量联系起来并进行比较。 



第 3 章 I 概要不平等测量 

. - - 


本章将介绍一套适用于资源或福利的连续、非负测量的概要不平等测量， 
它们来自大量的不平等文献，特别是考维尔的著作 ( Cowell ， 2000)。我们选取 
变异系数、基尼系数和泰尔指数等被广泛使用的测量以及基于分位数的测量、 
阿特金森族指数、广义熵指数族等不常被使用的测量。我们使用第2章中的假 
设例子来对每一个测量加以说明，从而以位置、尺度和形状改变的方式来阐明 
一个不平等测量变化的分析性特征。然后，我们使用取自“收人和项目参与调 
查”的1991年和2001年的数据，展示了真实世界中的不平等随时间变动而具有 
组合解释。我们用 Stata 中的软件包 “ in e q Ua 17”® 来得到各种概要不平等测量 
(Van Kerm ，2001) 0 

概要不平等测量 

我们考虑选取的测量是因为它们在经验工作中常被使用，或是因为它们具 
有特定的优势。我们通过将概要不平等测量与隐含着的概率分布及其分位数 
函数、洛伦兹曲线、社会福利函数和信息理论联系起来而加以介绍。 

将不平等测量与概率分布联系起来 

最简单的不平等测量可以直接根据已排序的个体收人而得到。收人的范 
围可被表达成最小收人到最大收人的距离，即极差尺： 


①注意，数字7前面是字母 “ al ”。 ——译者注 
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R = ^max 一 ymin [3. 1] 

如果我们知道整个人口的收人，极差就会有效地描述分布的完整范围。 
表 3. 1的第一行给出了收人的假设对称分布及其4种改变分布的极差。原始 
分布的极差为86000美元，纯粹的位置改变并未改变原始极差。如表 3. 1所 
示，尺度改变和右偏改变都扩大了此范围，而左偏改变则缩小了此范围。使 
用取自 SIPP 的真实数据，表 3. 2的第一行表明，1991年的收人极差为 
467000美元，2001年扩大到728000美元，这反映了美国收人分布的尺度和 
形状变化。 


表 3. 1 5个假设的收入分布的不平等测量 


不平等测量 

原始分布位置移动尺度改变右偏改变左偏改变 

与概率分布相联系 

1尺(极差 ）（1000 美元） 

86 

86 

128 

175 

68 

2 #(标准差 ）（1000 美元） 

10. 1 

10. 1 

15.2 

29.4 

6.4 

3 c (变异系数） 

0. 207 

0. 172 

0.207 

0. 385 

0. 148 

4 ^(方差对数） 

0. 049 

0. 032 

0. 049 

0. 178 

0. 026 

5 对数的方差） 

0. 049 

0. 032 

0. 049 

0. 172 

0. 026 

基于分位数函数和洛伦兹曲线 

6 />5//>50(分位数比） 

0. 662 

0. 720 

0. 662 

0. 464 

0. 728 

7 />95//>50(分位数比) 

1. 343 

1.284 

1. 343 

1. 754 

1.208 

8底部1/5的份额 

0. 142 

0. 152 

0. 142 

0. 101 

0. 1566 

9顶部1/5的份额 

0. 258 

0. 248 

0. 258 

0.315 

0.238 

10 G (基尼系数） 

0. 117 

0. 097 

0. 117 

0.219 

0.081 

根据社会福利函数推导 

11 A 1/2 ( 阿特金森指数 ， e = 1/2) 

0.011 

0. 007 

0.011 

0. 038 

0. 006 

12 (阿特金森指数， e = 1) 

0. 023 

0.015 

0. 023 

0. 077 

0.012 

13 A 2 (阿特金森指数， e = 2) 

0. 048 

0. 032 

0. 048 

0. 158 

0.026 

根据信息理论得到 

14 T (泰尔指数) G & (广义熵0= 1) 

0. 022 

0.015 

0. 022 

0. 075 

0.011 

15 Gf ：。 （广义熵 0= 0) 

0. 023 

0.016 

0.023 

0. 080 

0.012 

16 GE -, (广义熵 0=—1) 

0. 025 

0.016 

0.025 

0. 094 

0.013 

17 G £ 2 ( 广义熵 0= 2) 

0. 021 

0.015 

0.021 

0. 074 

0. 011 
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表 3. 2家庭户收入的不平等 测量: S 1 PP ( 1991年和2001年) 



不平等测量 

1991 

2001 


与概率分布相联系 



1 

尺(极差 ）（1000 美元） 

467 

728 

2 

标准差 ）（1000 美元） 

35.8 

45.3 

3 

f (变异系数） 

0. 738 

0. 900 

4 

V (对数方差) 

0. 790 

0. 969 

5 

W 1 (对数的方差） 

0. 707 

0. 846 


基于分位数函数和洛伦兹曲线 



6 

/>5//>50(分位数比） 

0. 194 

0. 190 

7 

p 95//>50( 分位数比) 

2. 866 

3.232 

8 

底部1/5的份额 

0. 048 

0. 043 

9 

顶部1/5的份额 

0. 430 

0. 466 

10 

G (基尼系数） 

0. 385 

0.424 


根据社会福利函数推导 



11 

A 1/2 ( 阿特金森指数， £ = 1/2) 

0. 123 

0. 149 

12 

A , (阿特金森指数， e = 1) 

0. 251 

0. 294 

13 

(阿特金森指数， e= 2) 

0. 734 

0. 875 


根据信息理论得到 



14 

T (泰尔指数) GE , (广义熵 0=1) 

0.244 

0. 310 

15 

G £；,( 广义熵 0=0) 

0. 288 

0. 349 

16 

GE _,( 广义熵 0=—1) 

1.378 

3.512 

17 

G £ 2 ( 广义熵0= 2) 

0. 272 

0. 405 


资料 来源: S 1 PP 。 


但是，极差对人口中每个人应答上的不完整信息非常敏感，它可能会受到 
少数极值的极大影响。不过，保密性原因使得顶部编码收人成为一种常见的做 
法，这实际上会掩盖收人的极差。一个更普及的离散度测量是分布的二阶中心 
矩，即方差 V : 


V =+公 （M — 夕) 2 [3.2] 

71 «-1 

如果每个人都得到一个固定百分比的增量，那么收人的方差将会增大。比 
如，每个人收人固定增加50%将导致方差增加 1. 50 2 = 2. 25倍[ 4 ]，尽管收入分 
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布的形状仍保持不变。表 3. 1的第二行显示，尺度改变 1. 5情况下的标准差（方 
差的平方根)为原始分布标准差的 1. 5倍。右偏改变使标准差增大近3倍，而左 
偏改变则使标准差减小约40%。表 3. 2的第二行表明，收入的标准差从1991 
年的 3. 58万美元增大到2001年的 4. 53万美元。 

如果想在不受收人数量影响的情况下对收人分布进行比较.我们可以将标 
准差(方差的平方根)除以均值得到变异系数^ 

c =^ [3.3] 

: y 

此测量对收入上一个固定的百分比变化不敏感，即被称做“尺度无关性”属 
性。[ 5 ]表 3. 1的第三行显示，原始分布和尺度改变分布的 c 仍为 0. 207。不过， 
它在经过纯粹正的位置改变 (0. 172) 和左偏改变 (0. 148) 之后减小了，在经过右 
偏改变之后反而增大了 （0. 385)。因此，变异系数描述了位置和偏态改变而非 
尺度改变。在表 3. 2的第三行中，1991年到2001年从 0.738 增大到 0.900 表明 
美国收入分布的中心位置以及右偏态上的增大。 

除了方差之外，我们也可以用对数方差来测量不 平等： 

士土 (log ( 令 )) = "tS (log— log 3；> 2 [3.4] 

71 ,1 ' 、 y 1 ’ n / =] 

由于对数据进行了对数转换，此测量对于减少严重右偏态分布可能很有 
用。术语“方差”有误导性，因为在方程 3. 4中，离差平方的平均值并不是关于对 
数转换数据的均值的，而是关于均值的对数 log (3) 的。这一测量仍然具 
有尺度无关的性质。每个人收人上50%的增量并不会影响到量％ 

由于上面提到的原因，统计上更为自然的是定义对数的方差 m ，也就是说， 
我们计算对数转换数据的方差。[ 6 ]这一测量具有与对数方差相类似的形式.除 
了它以几何均值代替算术均值$ 之外： 

m = 士公 ( log (^)) = 士士 ( log ： y ,. — log (: y )) 2 [3. 5] 

71 » - 1 ' y y / ' 71 1=1 

尺度无关性质也可以直接看到。如果我们以 OZ , 代替，那么 log ( o ；, ) = 
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log ( c ) + log (: Vi ) ，同时， log ( c ^) = log ( c )+ log (: y ) ，因此， 

— 2 ( log ( w ) — log ( o ；)) = — X ) ( log ( c ) + logiyi ) — log ( c ) — log (^)) 

n / = 1 71 i=l 

因此，我们可以消去 log ( c ) 项，又得到了原初的 tn 。 所以，对全部人口的收人增 
加一个固定百分比并不会影响对数的方差的值。 I 和 zn 两者都是尺度无关的， 
它们之间的恰当选择取决于函数转换（这里为对数）在特定研究中是否重要。 
不过，由于上面提到的原因，我们偏好 m 。 

收人对称分布及其4种改变分布的对数方差 I 如表 3. 1第四行所示。对称 
收人的 v 为 0. 049,尺度改变后该值并未被改变。正的位置改变实际上会提高 
均值以下收人的比值 M /夕 而降低均值以上收人的该比值，因此^值下降为 
0. 032。左偏改变也会以类似但更强烈的方式改变比值 yi / y , v 降低到 0. 026。 
相反，右偏改变以相反方向改变比值 y/h r 升高到0.178。随着因位置和形状 
都改变而导致对数方差从 0. 790上升到 0. 969( 见表 3. 2第四行），美国家庭户 
收人变得更加不平等。 

表 3. 1和表 3. 2第五行显示，尽管对数的方差 xn 与对数方差大体相似， 
但 X ；往往略大于 tn ，分布越是右偏或左偏，差异就越大。 

基于分位数函数和洛伦兹曲线的不平等测量 

收入分布的分位数经常被用于收入不平等的官方统计和经济学分析。比 
如，收人分布底部1/5和顶部1/5之间的比较会呈现出不均匀的收入分布。非 
中心分位数与中位数的分位数比的变化，经常被用来显示收入分布或财富分布 
形状的变化趋势。 

底部敏感的分位数比值为 的 / P 50, 而顶部敏感的分位数比为 p 95/ p 50。 表 
3. 1第六行和第七行表明，分位数比在尺度改变后仍未发生变化，但对位置改 
变、右偏改变和左偏改变敏感。比如，随着妁//>50上升而 {95// J 50 下降，正的 
位置改变会减少不平等。表 3. 2第六行和第七行显示，/>5/{50之比在1991年 
(0. 19 4 )和2001年 (0. 190) 之间其实并无改变，而 p 95//)50 大幅度地从 2. 866上 
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升到 3. 232。这些结果意味着，美国收入分布出现了下端停滞和上端扩大的 
现象。 

基于分位数的不平等测量更为灵活。研究者可以根据关注的主题来决定 
哪些分位数更有意义。比如，如果想通过对中产阶级的关注来了解收人分配的 
时间趋势，那么，我们可以选择 P 25 和^75。另一个例子是教育成就趋势，教育 
专家经常根据标准化测验分数来界定成就的类别。根据2001年的“全国教育发 
展评估 ” （National Assessment of Educational Progress ) ，八年级学生科学测验 
分数的初级成就水平是143分，为全国科学测验分数分布的第39个分位数 
039)。熟练水平 (170 分)和高级水平 (208 分)分别为测验分数分布的第69个 
分位数和第97个分位数。使用不同时间点上这些特意选取的分位数而不是任 
意的分位数，为我们提供了监测成就变化趋势的一种合理方法。同时，这一灵 
活性也意味着，我们并没有一个基于分位数的唯一测量。 

有关收人不平等的官方统计会用到收人“份额”的概念。比如，美国普查局 
报告说,2007年工资收人最高的1%的人拥有总收入的23%，达到了自1913年 
以来最高的不平等水平。收人份额就是处在收人的某一特定分位数区间的个 
体或家庭户的总收人所占的比例。比如，我们也许 会问： “收人最高的10%的总 
人数所占的比例是多少?” 

对于洛伦兹曲线， 

仏 /«) = 杂’ 

这就是最低收人的 s 名个体的收入所占比例。因此，点^ (p = 处的洛伦兹 
曲线直接给出了底部100^%的个体或家庭户所拥有的收入份额，记为 L ( p ) 0 
洛伦兹曲线也可以更间接地用于达到某一底部份额的情况。注意，具有最高收 
入的 s 名个体的收人所占的比例可 写为： 


i=n - H-1 5 (。 


n ST\ rt—s rt—s 

1=1 ^(o — i=\yu) _ i — 2 -j i=\ya) 

2 n n 

2—i y = ] ^(z) 
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即 1 — l ( (,n — s )/ n^j = 1 — 1 — G / w )) 。因此，一般而言，最高 100/>% 的个体 
或家庭户所拥有的份额由1 一 L(l — p ) 给出。 

要想得到中间份额，即收人位于两个分位数之间的个体——如 100 /» L %和 
lOOpv % 的个体——的总收人所占的比例，我们就取上限份额和下限份额之间 
的差值 L (如） 一 L (凡）。 

表 3. 1第八行和第九行给出了 5个分布的底部和顶部1/5的份额。考察 
底部1/5的收入份额实际多大程度上小于顶部1/5的收人份额，为我们提供 
了一种感知不平等程度的直觉方法。1991年到2001年的10年期间，底部五 
分位数的收人份额停滞在 0. 048到 0. 043之间，而顶部1/5的收人份额则从 
0.43 增加到了 0.47( 见表 3. 2第八行和第九行）。洛伦兹曲线可被用来查看 
各种分位数（不只是五分位数），以测量不平等。分位数比和份额都具有尺度 
无关的性质。 

洛伦兹曲线在时间上的变化并不总是反映不平等随时间变化的清晰模式。 
当两个时期的洛伦兹曲线相交时，我们就不能认为某个时期比另一个时期更不 
平等。我们将在第5章中对洛伦兹曲线的相交进行更详细的讨论。 

基于分位数和基于份额的不平等测量的灵活性吸引着许多研究者和读者。 
然而，这一灵活性是有一定的代价的，即概要数据的量会变得很大。这就需要 
研究者根据特定的研究背景来选取适用于整个收入分布的一套灵活的测量或 
一个概要测量。 

基尼系数 G 可以直接根据洛伦兹曲线加以界定，且具有简单的图形表 
达。既然完全平等情况下的洛伦兹曲线以对角线表示，且洛伦兹曲线总是位 
于对角线处或其下，那么，我们就可以通过计算对角线下方到洛伦兹曲线上 
方之间的面积来测得到平等的距离。两个面积的差值乘以一个因数2,就得 
出一个取值范围为0到1的不平等测量。越大的基尼系数值对应着越高的不 
平等程度。 

图 3. 1呈现了最小、最大和两个其他基尼系数 G 值所对应的4条不同的洛 
伦兹曲线。图 3. 1( a ) 对应完全平等的情况， G =0, 此时，每一个个体都得到相 
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同份额的总收人。图 3. 1( b ) 和图 3. 1( c ) 对应一些个体具有比另一些个体更高收 
入的情形，其中，图 3.1( b ) 比图 3. 1( c ) 更平等。图 3. 1( d ) 中的洛伦兹曲线展示了 
不平等最极端的情形，即某个人拥有所有的收人而(其他） 〃一 1个人根本没有收 
人，这时，基尼系数所测量的区域为单位正方形的整个右下三角，使得 G = 1。 



000 ^ 


( b ) 
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(c) 



P 

(d) 

图 3.1 最小、最大和两个其他基尼系数值所对应的洛伦兹曲线 

各种等价的方程可用来计算基尼系数。令 L ( p ) 表示特定比例 f 处的洛伦 
兹函数，我们可以将平等曲线和洛伦兹曲线之间的面积表达为平等线下方面积 
A 和洛伦兹曲线上方面积 B 之间的差值。因此，表达基尼系数的一个方法是写 
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出以下 方程： 

G = 2 (A — B ) = 2 f f pdp — L ( p)dp ) = 2 p — L ( p ) dp [3.6 a ] 

JO » 0 *0— — 

但是，以总体…， > 中所有可能收人对的差值形式来表达基尼系数方 
程也是可行的，即所有— 1)/2 个可能收入对之间平均差异的一半，并以平均 
收入加以标 准化： 



2 I yi ~ yj I /( n(w — 1 )/ 2 ) 
___ 



n(n 一 1 )y 


[3. 6 b ] 


这个方程清楚地表明基尼系数的最小值为0,此时，每个人具有相同份 
额的总收人。另外，当一个人具有全部收入时，取得最大值1，所以 G 的取 
值范围为[0, 1]。 

表 3. 1第十行显示.收入的对称分布的基尼系数为 0. 117。在第二列 
中， G 在纯粹位置移动的情况下有所下降 （0. 097)。 G 是尺度无关的，因为 
它基于本身就是尺度无关的洛伦兹曲线，如第2章中所指出的那样。尺度 
无关性根据方程 3. 6 b 也看得很清楚，因为平均收入5出现在分母中。左偏 
变化将 G 减小到 0. 081，而右偏变化则将 G 增大为0.219。美国收人的 G 从 
1991年的 0. 385上升到2001年的 0. 424,反映了位置和形状改变（尽管不是 
尺度改变）。 


根据社会福利函数推导得到的不平等测量 


现在，我们介绍如何使用社会福利函数来得到不平等测量。根据阿特金森 
的研究，一个由《名个体组成的社会的收人成分可被合并成一个》维排列 
(^， …， >)，其中， X 表 示第〗 名个体的收人水平。社会福利函数是将一个值 
，…， >) 赋予每一个可能的收人《维排列的函数，这个值代表了该社会 
在取得特定的收人 n 维排列情况下的集体福利。因此，如果 W ( w ， •••，>)> 
，…， ％)，那么，对于该社会全体而言，（: yi ， …，； y n ) 就被认为是比 
(5 i ， …， 5^) 更可取的。 
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社会福利函数的性质可被用来反映社会性的平等和公平目标 （ Deaton ， 
1997)。比如，我们可以对社会福利函数强加这样一个属性，即更平等的分配被 
认为优于更不平等的分配，因此，在一个社会的总收人保持不变的情况下，社会 
福利在收人被平等分配时达到最高。同样，我们也可以构造一个社会福利函 
数，使得社会福利在每当任意一名个体变富而并没有人变穷的情况下（帕累托 
改进)都会增加，这个性质被称做“公平偏好”。 

为简单起见，社会福利函数被都假定是个体效用的一个合计，因此，它有一 
个简单的加法形式 W ( m , …，％ ) = 。这里， U 是一个函数，意在反 

/-I 

映每一个将其与一个特定收人水平联系起来的效用，也被称做“社会效用函 

数”。此函数被假定对于所有的个体而言都是相同的。我们将把注意力集中在 

以这一方式构建的社会福利函数上， U 在这里被假定是单调非减的和凹形的。 

这些假定都是情理之中 的:单 调性确保公平偏好性质得以 维持； 凹形假定是个 

常见的假定，相当于边际效用递减假定。 

在这些假定之下,社会福利函数呈凹形，意味着与两个收入《维排列的加 

权平均值相对应的社会福利，至少和与每个排列相联系的社会福利的加权平均 

值一样大。在一个富人和一个穷人之间进行简单的收入转移时，只要这两人之 

间的秩仍未改变，就符合社会福利不减少。这就是最初由道尔顿提出的“转移 

性原则” ( Dalton , 1920)，我们将在第4章中进一步讨论。 

一旦确立了社会福利函数的具体形式，就有可能引入基于“平等分配的等 

值收人”这一概念的不平等测量。这被定义成每一个体所得到的收入: V * 会将 

社会福利提高到与实际相同的水平，即 W (: V %…，: y * ) = W ( yi , y „) 的解， 

或者 )=- EU (^,) 的解。在对社会效用函数 U 进行仿射变换①的情况 
71 1-1 

下，平等分配的等值收入是恒定的，这意味着，如果我们通过选取常数 a ( «> 0) 
和6对社会效用函数 U 得到 U ( y ) = aUb ) +6来定义一个新的社会效用函数 
&，那么，>*对 U 和 G 两者而言是相同的。 


①仿射变换是一种二维坐标到二维坐标之间的线性变换。这种转换可保持二维图形的“平直 
性' —译者注 
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在上述假定之下，我们有 w (: V %…，，）<沢(夕，…，50,因此 〆 <夕， 
也就是说，平等分配的收入并不会大于平均收人。通过平等分配可得的收入， 
从社会福利的角度看，使社会变得更富裕。那么，比值，可被视为一个平等 
测量。如果此比值接近1，那么，社会就可以重新平等地分配其所有可得的收 
人，并大致得到相同水平的社会福利。如果此比值为40%，那么，社会可以通过 
将总收人的现值减少40%并平等地将其分配来实现完全平等。平等分配所有 
收人并实现相同的社会福利所需要的收人减少越少，社会就越接近平等。阿特 
金森介绍了使用量1 一 来测量不平等的思路。这个量也取0到1之间的 

值,其中，0表示完全平等。值越大表明越不平等，但这取决于社会效用函数，该 
值不可能为1。 

经效用函数仿射转换得到的的不变性性质，直接导致了相应的不平等 
测量具有相同的性质。这很有吸引力，因为通过尺度改变或变化来调整社会效 
用函数不应对不平等测量造成影响。最后一个强加给我们的不平等测量的关 
键性质就是收入尺度无关性，即如果对于一个正的常量^以 ( on ，…， o ； n ) 来取 
代收入的《维排列，那么，不平等的水平不应被改变。当我们将这一条件强加给 
不平等测量时，社会效用函数的可能情形就被减少成一组形式为 Ub ) = y 或 
U ( y ) = log (^) 的社会效用函数的仿射转换，这里， c 为某个小于或等于1的数 
值。我们习惯上用参数 e = 1— r 而不是 c 来表达使用仿射转换形式= 
(^ l -- l )/( l - e ) 的社会效用函数族，这里， e 被限定为非负数。请注意 ， e = 1 
的情形在上述定义中未被明确定义，但是，随着 e — 1[ 7 ]，这一规则使我们能够 
将 C /(3；) = \ og ( y ) 作为这一族的极限情形，因此，我们用符号 L / ib ) 来表示这一 
特殊情形。请注意，对于£>1， U e (0) 的值并未被明确定义，但这种情形确实落 
人极限，随着 J 趋近于0, 的值趋近于一°°，因此，如果任何单个的个体都 

没有收人，社会可被视为正处在一个极其危险的状态之中。既然一些人没有收 
人可以是一个经常发生的事情，那么，这一取值范围上 e 值的使用可以被证明是 
成问题的。 


我们已经得到了具有若干可取性质的社会福利函 数族: 
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1 — e 


这里，参数 e 的值为非负数，同时，我们将理解成 ii：log(y)。 参数 e 被 

n i=l 

定义为不平等厌恶参数，读者很快就会明白这么定义的理由。这一参数的选 
择意在反映作为整体的社会行为。一旦确定了不平等厌恶参数的选择，通过 

求解方程 Ueb* ) =if；l7 E (M)， 就可以简单而直接地得到平等分配的等值 

72 i=\ 

收人，同时得到解。这里应当强调的是，每选取一个 

72 1:1 

不平等厌恶参数 £， 都会得到一个不同的，值，因此，为了避免混渚，我们可 
以用符号 ( e) 来表示这个量。当 e = 0 时，平等分配的等值收人为平均收人 
恰好与社会福利价值相符。因此，对于那些较小的不平等厌恶参数取值， 
任何不改变总收入的收人不平等都对社会福利具有最小的影响。对于 e 等于 
1时这一特例，我们会得到几何均值 (1) = 推导（见发布在作 

者网站上的第3章附录 A) 表明，随着不平等厌恶^数 e 的上升，平等分配的 
等值收人 jMe) 会下降。如果单个个体的收人为0且£>1，那么，上的 
指数就是负的①，同时，我们可以将 (e) 的表达式解释为0,尽管这是在将 
收入向量视为包含所有正值的收人向量序列的一个极限的情况下取得 
的值。 

此时，对于 e > 0的每一个可能取值，我们可以介绍阿特金森不平等指数族 
A £ ，它们是与所考虑的社会效用函数的具体形式相联系的阿特金森测量。这些 
测量可以根据 ( e) 的表达式直接得到，并写成以下 形式： 

Aeiyi , ―, y „) = 1 — ^* ( e)/y = 1 — —2 [3.7] 

L n ,1 ^ y ' 」 

这里， e 关1，而在 e = 1的特殊情况下，我 们有： 

Ai(^i* •••» yn) = 1 — (IT (yi/y^) 

i=] 


①即此时 l _ e 小于0。——译者注 



评估不平等 


现在， e 为什么会被定义成不平等厌恶参数就变得很清楚了。在阿特金森 
的方法中，被定义成1 一 ( e >/7 的不平等会随着参数£的上升而增大。如果 e 
非常接近于0,那么，无论收人被如何分配，阿特金森指数都会取一个接近于0 
的数值，同时，社会可被描述成对收人不平等漠不关心。对于两个具有完全相 
同的收人分配的不同社会，第一个社会具有参数£!而第二个社会具有参数£2 , 
且 £1 <£ 2 ,那么，第二个社会将会被认为其不平等更严重，且可被描述成更厌恶 
不平等差异。 

考虑阿特金森指数的可能取值范围很重要。在下端，当收人在整个人口 
中被平等分配时，对于所有的；，有 M = >同时，所有的阿特金森指数都取0 
值; 在上端，指数不能超过1。对于£<1，当某一个体拥有所有的收人时，就 
出现了最大的不平等，同时，我们 得到八 =1 一 如果较大且 e 不很 
接近于0,那么，这一数值将接近于1。如果 e > l ， 可使 人接近 于由某一个体 
得到了几乎所有的收入而其余人口则分享剩下部分的收入的向量所要求的 
取值。 

表 3. 1第十一行记录了 的值。对于收人的对称分布，该值为 0. 011，它 
在尺度改变之后仍然相同。正的位置改变实际上提高了均值以下收人的比值 
%•/ 夕 ，而降低了均值以上收人的该比值，因此降低了由阿特金森指数 (0. 007) 所 
测得的不平等。同样，左偏改变也改变了比值 y /夕， 将 A 1 / 2 减小到 0.006。 相比 
而言，右偏改变也改变了比值 M ，并将 A 增大到 0. 038 。 提高不平等厌恶会 
导致更大的不平等，如表 3. 1第十二行和第十三行所示，其中， £ 从£ = 1到 e = 2 
的加倍导致不平等也提高了两倍多。表 3. 2 第十一行到第十三行中取自 SIPP 
的真实数据显示， A 1 / 2 从 1991 年的 0. 123 上升到 2001 年的 0. 149。 对于这两年 
而言， A 2 的值几乎是 A ! 的值的 3 倍。 

根据信息理论发展得到的不平 等测量 

熵 

信息理论使用被称做“信息熵”或“香农熵”的测量来量化概率分布（或随机 
变量）的随机度。术语“熵”表达了不确定性。如果我们考虑一个实验，其中的 
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一个随机变量能够以概率灼，…，九取〃个可能值之一，那么，与该分布相联 
系的熵被定 义为： 

n 

H(p\, •••, p n ) =— 2 pi log2 ( pi ) 

i = l 

请注意，定义熵时，简单地以 2 作为对数的底。我们可以用任意的底数来定义 
熵，它只具有将全部熵都乘以一个常数因数的效果，也就是说，如果我们转而使 
用自然对数，那么以上定义的所有熵都被乘以 log (2) 0 如果某一结果是确定 
的，因此对于某一个 i ， 有 A = 1 (使所有其他概率都为0)，那么，此处的熵就 

为0。[8] 

最简单的例子也许就是投硬币实验的情况。这里，有两个可能的结果，每 
一个结果出现的概率为1/2,使得 熵为： 

H ( l /2, 1/2) =—+ log 2 ( l /2)—+ log 2 ( l /2) = 1 

这个例子解释了为什么我们以2作为对数的底。熵被视为对实验中的信息 
进行编码所需要的字节数。此处，包含两个可能结果的实验结果只需要一个字 
节。我们可以认为，熵是在测量以投掷硬币作为基本单位的分布的随机性。更 
一般地来说，我们可以考虑一个两类结果的实验，其中，结果岀现的概率为 P 和 
1 一 h 这里， P 为0到1之间的任意数字。此实验被定义为伯努利试验。此处 
的熵由下式 给出： 

H ( p , 1 — p ) =— p \ og2ip ) 一 （1 — / j ) log2 (1 — p ) =— log2 ( 〆 （]_ — 

这个摘用图形表示，很像一个倒过来的、对称的抛物线。凭直觉，对于投掷 
一枚分布不均勻的硬币的情况,当正面朝上的概率为1/2时，熵(不确定)会达到 
最大。 

如果 X 是一个以概率 / M ， …，％取》个可能值的随机变量，那么，我们可 
以将…， A ,) 定义为 X 的熵，并将其记为 H ( X )。 熵只取决于实验中各 
类结果出现的概率，指派给这些结果的特定标签本身并无任何影响。因此，与 
结果出现的概率为和，… ，九 的实验相对应的熵并不会受到对结果（因此也是 
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概率)进行重新排序的影响。 

熵有很多重要的性质，我们在这里介绍其中的一些。一个关键的性质是独 
立条件下的可加性。我们来考虑两个实 验:在 第一个实验中，我们观测到一个 
熵为 H ( X ) 的随机变 M X ，在第二个实验中，我们观测到熵为 H ( Y ) 的 Y 。 那 
么，在 X 和 Y 相互独立的情况下观察到( X ， Y ) 对的组合实验中 ，（ X ， Y ) 对的熵 
为各熵 之和： 


H ( X , Y ) = H ( X ) + H ( Y ) 


为了领会这一点，设想 x 以概率 / m ， …，来取得值1，…，切， y 以概率 
仍，…， 如来 取得值1， …， 《，那么，（ X ，: n 对就以概率 aw 取得值 g _, j )。 因 
此，对应此组合实验的熵由下式 给出： 

w =— 2 Jpiq] log(A<7；) =— Si, (log(A) + log (① ） ) 

=— 产 .9) log ( A .) +— 2 』 2 lo g ( W ) 

=—log( A.) 2# +— S ■/ iog (① -) 2 户 I. 

=-S,P-log(A) - S^log(^) = H(X) + H(Y) 

由于概率分布的熵是在不管有多少个结果的条件下定义的，因此，我们需 
要理解不同数量结果的熵是如何相互联系的。比如，如果 H 是与概率 / n ， …， 
p n 相对应的熵，且这些概率的其中之一 A 被分成了两部分，比如，/>, =<?,+「,， 
那么熵会 增加： 

H(pu … ， pi ~\ , qi + n , pi~n ， … ， pn) H(p\ 9 … ， pi ~\, qi , n , p^\, … ， p tl ) 

此外，熵函数是凹性的 [ 9 ]， 因此，对于一对概率分布 Pi ，… ，如 和"，•••， 
q n 以及一个常数 a e [0, 1]，我 们有： 

h(a(/>i, •••, A!) + (1 — A)(gi ， … ， q n )) ^XH{p\y •••, p n ) 

+ ( 1 —…，咖） 


这一不等式有如下解释。以下概率的 分布: 
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A (户 1 ，…， />«) + (1 — A)(gi > •••> q n ) = ( A/>i + (1 — A ) gi， …， Apn + (1 — A )</ n ) 

可被看成是投掷一枚分布不均匀的硬币的同时，对/>1，…， 九所 界定的概率为 
A 的分布和们，…，咖所界定的概率为1 一 A 的分布进行抽样所得到的。这被定 
义为这两个分布的混合。那么，不平等表达的是两个分布的混合的熵至少与这 
两个分布各自的熵的相应混合一样大。 

份额的熵 

既然熵提供给我们一个概率单位在《个结果之间不均匀分配程度的量，那 
么，我们自然也可以用相同的思路来量化总收入在某一人口中不均匀分布的程 
度。假定人口中个体的收人为 W ， …，>，因此，个体〗的收人份额为〜= 

yi / ny , 且这些份额相加等于1，即 E -= 1 ^' = lo 我们将这些份额当成概率来处 
理，将量 H = -2； =1 . svlog (5,) 定义成一个收人不平等测量(请注意，这里我们 
使用了自然对数)。 

基于熵的不平等测量 

介绍基尼系数时，我们测量了洛伦兹曲线和平等线（它对应于完全平等的 
情形)之间的面积。采用类似的方式，我们可以计算在每个人获得相同收人份 
额这一完全平等的情况下，得到的熵与实际收人份额情况下的熵之间的差。所 
得的测量被定义为“泰尔不平等指 数”： 


T = H ( l / n , 1/ m ) — H ( si , •••, s n ) =— 2 丄 log (丄) + s , log ( s ,) 


nr 

T = ^Si log ( i* z )— log (— 

i-i L n 

T=iSf[.o g (f)] 


[3. 8 a ] 
[3. 8 b ] 

[3. 8 c ] 


该指数的这 3 个表达式是等价的。 [ 1 G ] 方程 3. 8 c 表明，收人与平均收人的 
比值 yi / y 是隐含在该定义中的基本元素。与在对数方差和阿特金森指数中的 
情形一样，收人比确保了泰尔不平等指数是尺度无关的。 

既然泰尔不平等指数是完全平等情况下的熵减去实际测得的熵，那么其 
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取值就位于区间[0, logU )] 上，其中，0表明完全平等，而 log («) 表明极其不 
平等（一个人拥有全部收人）。因此，尽管熵在所有概率都相等的情况下取得 
最大值，但这对应着泰尔不平等指数的最小值，此时，所有的收人份额都 
相同。 

熵的凹函数性质直接导致泰尔不平等指数极具吸引力的一个性质。设想 
有两种政策，某个人口将依据它们来分配总收人。在第一种政策下，令分配比 
例为灼，…，％;在第二种政策下，这些比例记为仍，…，办。那么，在第一种 
政策下，个体〗得到比例为仏的总 收人; 而在第二种政策下，这一比例则为 g , 。 
现在，我们可以用这两个基本政策下的平均比例来定义一个新的分配政策，因 
此，个体；得到的收人比例为。熵的凹函数性质会确保这一组合政 
策下的泰尔不平等指数不大于两种政策下各自泰尔指数的平 均值： 

了组合政策< y ( 了政策1 + 了政策2 ) 

更一般而言，我们可以建构两种政策的加权平均值。取任一取值范围为0 
到1的常数，并按照政策1和政策2下所得份额的加权平均值，将收人分配给每 
一个个体，也就是说，个体/得到的收人份额为 A A + (1 — A ) g , 。熵的凹函数性质 
确保不平等的泰尔测量永远不大于这两种政策下，各个泰尔不平等测量的相应 
加权平 均值： 


T 组合政策政策1 + (1—/ Or 政策2。 

表 3. 1 第十三行给出了收人对称分布及其 4 种改变分布的泰尔不平等指 
数。该指数在对称分布收入情形中取值为 0. 022,与尺度改变分布情况下的值 
相同。 该指数在正的位置改变和左偏改变之后降低，但在右偏改变之后却升 
高。 同样，表 3. 2 第十三行显示，泰尔不平等指数从 1991 年的 0. 244 上升到 
2001 年的 0. 310 。 

以熵和泰尔指数表示的收人份额的对数转换只是转换族中的一个例子。考 
维尔用下述熵更一般性的定义介绍了修正的信息理论测量族 (Cowell, 2000) : 
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= £(f f- 1 ] [ 3 . 9 ] 

这里，0为敏感性参数，其取值可以是任意实数。0越是为正，该指数就越是对分 
布顶部的收人差异敏感，故被定义为“顶部敏感的”广义熵指数。同样，0越是为 
负，该指数就越是对分布底部的差异敏感，故被定义为“底部敏感的”广义熵指 
数。与泰尔指数的情况一样，广义熵也是尺度无关的。 

当沒=1, 0=0或0=2时，根据方程 3. 9可以推导出一些特殊形式(请见 
发布在作者网站上的第3章附录 B )。 当0 = 1时，我们会得到泰尔 指数： 

阳=士細 b g (，卜 丁① 

当0 = 0时，我 们有: 

GE 0 =^g log(|) 

这被称做“平均对数离差”。当0 = 2时，我们得到 GE 2 = rV 2, 即变异系数平方 
的一半。0的其他特殊取值通常都与熟悉的不平等测量有关联。当0=—1时， 
广义熵与反向个体特性的均值相关。当0<0<1时，广义熵与阿特金森指数具 
有常见的 关系。 对于阿特金森族中的每一个指数（以不平等厌恶参数来定义）， 
广义熵族中都有一个等价指标。不过，由于0可以取(0, 1) 区间之外的任意数 
值，所以，相反的情况并不成立。 

表 3. 1第十三到第十七行列岀了广义熵的4种特殊情形。在第十四行中， 
泰尔指数与0 = 1时的 GE ! 相同。随着0在第十四行到第十六行中从1下降到 
0和一 1，我们看到，收人对称分布及其4种改变分布的 GE 0 值在不断上升。在 
第十七行中，我们看到， G £ 2 为变异系数平方的一半 ( d /2)。 广义熵在尺度变动 
后仍然相同。以广义熵测量的美国收人不平等显示在表 3. 2第十四行到第十七 
行中。请注意，广义熵的时间趋势必须用相同敏感参数0加以考察。比如，与关 


①此方程略有改动.去掉了原文方程等号左边字母 c ; 的标记1。——译者注 
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注分布的中间部分的 GEi = 了相比，底部敏感的 GE - iF 但表明1991年和 
2001年的不平等程度更大，而且显示出这两年间不平等的增长速度也更快。 

广义熵测量具有很多有用的性质。但最重要的是，广义熵能足够灵活地以 
满足各类具体实质需要和符合不平等测量的所有基本原则的方式，来刻画不平 
等的特征。 

适用于含非正数取值变量的概要不平等测量 

迄今为止，我们一直将收入或其他资源作为不包含负值和零值的情况来对 
待。许多经验研究都关注正值收人的分布，因为负数收人（比如，由于资本损 
失)或没有收人的人口比例通常非常小。经验研究工作中的做法是删除那些包 
含负值或零值的案例。对于以资产净值(总资产减去总负债)来衡量的财富而 
言，情况变得十分不同。没有正的总资产净值的家庭户的比例很大(根据 SIPP 
数据，2001年时为17%)。比如，因助学贷款所导致的负资产净值源于生命周期 
差异。人们通过承担信用卡债务来均衡消费。房产市场泡沫和随后的危机能 
够大大降低一处房产相对于抵押贷款的价值，从而导致负的房产净值。金融市 
场危机可以大大缩减人们持有的股票与债券投资的价值。因此，总价值为负值 
或零值的家庭户太重要了，不能删除。 

这里所回顾的不平等测量并不都能处理收入变量的负值或 零值; 使用对数 
函数的不平等测量不能处理非正数取值，除 GE 2 之外，阿特金森指数和广义熵 
族的一些测量也能处理非正数取值。方差、变异系数、基尼系数和基于分位数 
的测量都可以用来考察这些情形下的财富不平等。 

根据1991年和2001年的 SIPP 财富数据，表 3. 3给出了可以处理负资产净 
值和零资产净值的不平等测量。负资产净值的家庭户比例为 8. 4%，零资产净 
值的家庭户比例为 4. 4%，这样，1991年时没有正资产净值的家庭户比例共计为 
12. 8%。2001年的相应数值分别为 12. 9%、 4. 3%和 17. 1%。极差和标准差在 
这10年间大大上升，反映出2001年资产净值上的分化要比1991年大得多。变 
异系数从 1. 73上升到 8. 84,主要反映了方差的增长(尽管以一个很小的因数对 
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c 进行调整的情况下的资产净值中位数达到了 6303美元）。分位距沖5到户5 
上升了几乎一半。请注意，/>5是个负值，因为超过5%的家庭户在这两年中的 
资产净值都是负的。我们没有用基于分位数的偏度，因为近4%的家庭户的资 
产净值为0,这使得资产净值分布呈现出多峰样态。底部20%的家庭户的资产 
净值之和在这两年都为负值(负资产净值之和大于正资产净值之和），导致1991 
年的份额为一0.010, 2001年的份额为一0.018。顶部20%的家庭户的份额从 
0. 699上升到 0. 766,基尼系数也从 0. 700 上升到 0. 769。 


表 3.3 家庭户资产净值的不平等 测量: SIPPU 991 年和2001年) 



不平等测量 

1991 

2001 


与概率分布相联系 



1 

K (极差 ）（1000 美元） 

6850 

221977 

2 

#( 标准差 ）（1000 美元） 

200 

1458 

3 

C (变异系数） 

1. 730 

8.840 


基于分位数函数和洛伦兹曲线 



6 

p 95/》50( 分位数距 ）（1000 美元） 

463 

664 

8 

底部1/5的份额 

—0. 010 

—0.018 

9 

顶部1/5的份额 

0. 699 

0. 766 

10 

G (基尼系数） 

0. 700 

0.769 


负值的百分比 

8.4 

12.9 


零值的百分比 

4.4 

4.2 


中位数(美元） 

45843 

52146 


来源: S 1 PP 。 


小结 


本章介绍了一套选取的概要不平等测量。附表 A 1 列岀了每一个测量的名 
称和公式。通过以假设的和真实的例子进行示例说明，我们讨论了每一个测量 
背后的基本原理，并通过位置、尺度和形状改变将它们联系起来。具体研究中 
不平等测量的选择取决于一些原则，它们使得我们能在各方面对不平等测量进 
行比较。我们将会在下一章中讨论该问题。 





第 4 章 I 不平等测量的选择 


第3章中所讨论的一些概要不平等测量属于指数族，且每一族都涉及一个 
可以取许多值的参数。既然概要不平等测量数量众多，那么，我们如何选取一 
个或若干个满足具体研究需要的测量呢？ 了解一个不平等测量是否满足具体 
研究所期望的某些原则是个好的开始。我们现在就开始讨论这些原则，包括弱 
转移原则、强转移原则、尺度无关性、人口无关原则和可分解性。我们将定义这 
些原则，解释为什么它们对于选择不平等测量而言是重要的，并检查第3章中所 
讨论的每一个不平等测量是否满足这些原则。本章也提供了适合这些原则的 
经验例子。在介绍了 5个原则之后，我们会讨论选取对一个人口进行考察的不 
平等测量的理论和实际考量。最后，我们提出洛伦兹占优作为对不同人口进行 
比较的一个首要指导准则。 

弱转移原则 

由道尔顿首次介绍的转移原则现在被称做“弱转移原则”，该原则关注两个 
社会成员之间的一次收人转移之后社会福利的变化，如第3章中的讨论。我们 
设想以下情 景:出 现了收入从一个更穷的人向一个更富的人的转移，但这两个 
人相对于对方的总收人以及转移以后的秩都没有改变，也就是说，不到他们收 
人差值的一半被转移了。在其他情况相同的情况下，收入从更穷的人向更富的 
人的任意一次转移，都应当总是使得不平等测量上升 ( Sen , 1973)。此原则被称 
为“庀古一道尔顿转移原则”。森 ( Sen ) 写道： 
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实际上，早在1920年时，休 • 道尔顿 （Hugh Dalton ) 已经论证过，任 
一不平等测量必定具有这一对低限度的性质。既然道尔顿在这点上追 
随了他在此语境中所引用的庀古的指引，我们必须称之为“庀古一道尔 
顿条件”。 

这一条件现在被称为“弱转移原则”，它表达了在其他条件相同的情况下， 
收人从更富的人向更穷的人的转移会导致不平等的缩减。 

第3章中回顾的许多不平等测量都服从弱转移原则。正如第3章中详细讨 
论过的，阿特金森指数族和一般性的熵测量族满足此原则。基尼系数 G 通常也 
等价于阿特金森指数 ( Sen ， 1976)，故也满足此原则。 

不过，对数方差 u 和方差的对数 W 并不总是服从弱转移原则。我们有可能 
阐明一些解释收人转移如何影响对数方差 I ；的结果。这些结果取决于与收人分 
布的上尾部有关的某种条件，它表明，总体中的所有收入水平都不超过％，其 
中，夕表示总体均值，而 e = 2. 71828。这一条件说明，最高收人水平相对于平均 
收人而言，并不算太极端。对于收人或其他资源的右偏分布，最大值不到均值 
的3倍是少有的，这将导致此条件得不到满足。在任何情况下，如果收人分布满 
足这一条件，那么，对于收人满足3^ 的任意一对个体〗和 h 当我们将收人 

额5< +力）从个体7向个体，转移时，以^测量的不平等会下降。另一 

方面，当条件不满足时，对于其收人满足 h < yi < yj 的任意一对个体 i 和乃 
收入额《5< 力）从个体_/向个体 i 的转移会导致以 r 测量的不平等上 

升。对数的方差奶不满足弱转移原则的原因更为直观 (Foster Ok ， 1999)。 
因为转移被界定，以便不改变总收入，所以，大多数不平等测量(除了切）中所使 
用的平均收人5也并未发生变化。但是，对数收人的均值在转移后发生了变 
化。如果对数收人的均值的变化超过了个体收人的变化，那么， xn 也许在富人 
到穷人的收人转移后会上升。如果转移不处于极上尾部，这一条件也不可能碰 
巧出现。 

比如，使用 SIPP 2001年的数据，为了使对数方差^在从％到力的转移之 
后增加，我们在> < < yj 的条件下，人为地制造一次富人到穷人的收人转 
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移。我们根据收人，对家庭户进行排序，以识别出1096(4%)个收入超过％ = 
136822美元的家庭户。然后，最高排序的家庭户将290000美元(这不到他们收 
人差值的一半)赠与顶部4%里最低排序的家庭户。转移之后，赠与者仍然比受 
赠者更富有。转移前， ^ = 0. 96850,转移后， p = 0. 96854,表明尽管出现了富 
人到穷人的收入转移，但不平等却在增加。同样，对数的方差也增加。同时，方 
差、变异系数、基尼系数、阿特金森指数和广义熵测量都下降。 

基于分位数的不平等测量也可能不满足弱转移原则。收人处在界定测量 
的两个有关分位数之间的两个个体间的收人转移不应导致该测量的改变。使 
用上述顶部4%的富人到穷人收人转移的例子，我们发现495到户5分位数距、 
中间90%家庭户的基于分位数的偏度、底部1/5的份额和顶部1/5的份额都仍 
相同，尽管顶部4%中出现了收人转移。虽然不满足弱转移原则,但基于分位数 
的测量却经常被用在政府统计和学术研究中。采用基于分位数的测量的主要 
优势在于，分位数不会受异常值或公用调查数据中经常用到的顶部编码的影 
响 。在 P 95 到 妁 分位数距的情况下，只要顶部编码位于沖5之上，该分位数距 
就不会受顶部编码的影响。反之，顶部编码确实会对包括顶部编码在内的所有 
数据点的概要不平等测量造成影响。 

强转移原则 

尽管弱转移原则阐明了转移后的收人分配比转移前的收人分配更不平等， 
但它并没有告诉我们，当转移发生时，不平等变化的程度。要求间隔相同“距 
离”的两个个体间的一个固定的转移量带来同样多的不平等减少似乎是合理 
的。换言之，对于固定距离上的一次转移，所引起的不平等变化只取决于赠与 
者和受赠者的收人份额。因此，可以对以每一个指数包含的“收人份额之间距 
离”的形式，对不同指数进行比较。这就引出了强转移原则。要满足强转移原 
则.不平等测量需要满足弱转移原则。强转移原则说明，收人转移会减少不平 
等，而且，不管赠与者和受赠者在收人分布上位置如何，如果相同的转移出现在 
相同距离的两个人之间，那么，不平等减少的量是相同的。术语“距离”必须小 
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心地加以解释，因为对于一个给定的满足强转移原则的不平等测量，必须设定 
测量距离的方法。 

我们考虑的所有距离，都通过使用绝对差值或某一转换之后的绝对差值， 
抑或通过排序来得到。当更富者的收人为《而更穷者的收人为. q 时，所考虑 
的最基本的距离是简单绝对差值测量《 — ^。使用这一距离测量，方差 V 满足 
强转移原则。但是，变异系数 f 在采用这一测量时.并不满足此原则，因为，正如 
可证明的那样，收人相差一个固定量的个体间的收人转移所导致的 C 的变化取 
决于 V 的值。 

与满足强转移原则的不平等测量相关的其他距离测量，可用上面应用收入 
转换之后的距离来定义。一个例子就是两个对数转换的收入份额之间的绝对 
差值。泰尔指数使用收人的对数转换，因此，两个人收人之间的距离为对数距 
离，即 log(5 2 )-log(5l) 0 也请注意，广义熵的特例 GG 等价于丁，因此，对数距 
离应用于 GEi 。对于包含设定0值的广义熵，我们使用了一个涉及收人份额的 
指数函数的不同 转换： 



6 - 1 9 - 1 


这一指数距离在 0 = 2 时，简化为绝对距离 .V2-51 ，而在 0 = 1 时，则简化为对数 
距离。对于阿特金森指数族，个体 j 到 z 较小数量5的收人转移会导致不平等 
测量上接近— U ' Oa )) 的变化，因此，这些测量可被认为满足强转移 
原则的极小形式，它建立在以社会效用函数形式定义的距离[/(%) — U '(3 a ) 
的基础之上。没有与基尼系数相联系的天然的距离测量，但与强原则类似的一 
个属性对基尼系数而言是具备的。 

对于都位于下端尾部、都接近中位数处或都位于上端尾部的两个个体之间 
的收人转移而言，这一原则的强度确保了相同的不平等减少，只要它们之间间 
隔的距离(专门对应那个指数的）相同。如果研究关注的是不平等变化的秩和 
量，就需要这个属性(“基数”属性），但是，如果研究者的主要关注点是比较各分 
布时的序次，它可能就太严格。 
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尺度无关性 

尺度无关性问题在第3章中对不平等测量进行介绍时就被提及。如果一个 
不平等测量在尺度改变一-总体中每个人收入上一个固定百分比的上升(或下 
降)——后仍未变化，它就被认为是尺度无关的。所有用平均收人、总收人或任 
意收人(比如，几何平均收人和中位数收人)进行了标准化的不平等测量，都具 
有这一属性(请见附表 A 2)。 r 、 W ①、 G 、 丁、八和都以平均收入进行标 
准化; 切以平均对数收人进行标准化，基于分位数的偏度测量以中位数 
收入进行标 准化; 收人份额则以总收人进行标准化。相反，极差尺、方差 V 和分 
位数距都不是尺度无关的。 


人 U 无关原则 


考察某一人口的收人不平等时间趋势，会因为此人口从一个时期到下一个 
时期可能正经历增长这一事实而变复杂。我们寻求独立于此增长的不平等测 
量方法。对于某一研究而言，人口的规模不应当影响对一个社会不平等趋势的 
量化或不同社会之间的不平等模式。人口无关原则说的是，当我们测量某个人 
口的不平等时，这一测量只取决于此人口的收人分布。可争辩的是，比如，可以 
通过计算人口中被认为处于贫困中的个体数目来测量社会福利。但是,从历史 
上来看，这类分析一直不是不平等研究的焦点。人口规模无关原则与政府统计 
和学术研究中所见到的人均收人概念有关。 

我们可以做一个简单的练习来举例说明人口规模无关原则。 SIPP 数据 
2001年的总样本是》= 27294。我们通过对样本中的每一个家庭户创建一个一 
模一样的家庭户，来将 SIPP 数据的规模扩大一倍，所以样本规模现在是2« = 
54588。显然，人均收人仍然未变。我们接着重新计算第3章中所回顾的不平等 


①原文此处的符号为 V . 但根据第3章的内容，实际 . t 应该是对数方差％ —一译者注 
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测量，发现它们在 规模〃 和规模％两种情形下完全相同。这说明，所介绍的选 
取的不平等测量满足人口规模无关原理。 


可分解性 


一个社会通常按照种族、性别、教育水平、年龄和其他因素被分为各个群 
体。虽然相同层内的个体之间有存在差异的可能性，但我们会观察到通过它们 
所落人的不同层来解释的社会个体成员之间的一些差异。同样，我们会考虑分 
解某一既定不平等测量的可能性，因此，总收人不平等被区分成组间不平等（比 
如，黑人和白人之间的不平等）和组内不平等（比如，白人之间的不平等和黑人 
之间的不平等)。另一种类型的分解也非常自然地出现在实际应用中。比如， 
收人可以来自不同的来源，如劳动所得和非劳动所得，这就值得我们去了解总 
收入不平等如何被区分成来源间和来源内两个部分。 

如果一个不平等测量可被表达成组间不平等加上每一组内不平等的加权 
总和，那么，它会被认为是加和可分解的。这里，我们考虑到了权重取决于组内 
平均值和总平均值的可能性。我们继续介绍前面提到哪些不平等测量是加和 
可分解的，并给出每一种情形的详细分解。这需要稍加留神，因为我们需要对 
组间不平等的权重和测量进行区分。 

方差提供了一个熟悉且具有说明性的加和可分解概念。我们知道，总方差 
是组间方差与组内方差加权总和后的两者之和。我们将这一法则应用于规模 
为 m 的白人群体和规模为 n 的黑人群体的经验数据。样本总收入的均值为 A 
无偏方差为 VT 。 白人收人的均值为 Swm 、无偏方差为 V wht ，黑人收人的均值为 
夕 blk 、无偏方差为 Vblk 。 

通过将 7 W 个白人的收人都变为 ^ W ht ， 7!个黑人的收人都变为 5? blk ， 然后求 
出所得数据的方差，就可以得到组间方差 VB 。 组内部分 VW 就是各组内方差的 
加权总和。因为无偏方差针对样本规模进行了调整（全部样本时为 m + n -\. 
白人样本时为 m — 1、黑人样本时为 《 — 1)，所以，我们需要在计算每一个群体 
的方差时所用的权数中考虑这点。具体而言，白人的权重变成了调整的白人比 
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例 （ m — l )/( w +« —1), 黑人的权重变成了调整的黑人比例 （72— l)/(m + n — 
1)。请注意，这两个权重加起来并不等于1。采用这一设定，我们可以将基于经 
验数据的方差的加和分解表 达成： 


yr = yB+yw 


= V B -f 


m — 1 
m-\- n — 


* 2 ^ wht 


n — 1 
m-\~n — 1 


Vbik 


[4. 1] 


由于变异系数 r 为以均值标准化的标准差，因此，它的平方项 d 也是加和 
可分解 的。/ 为以总平均值的平方标准化的总收入的方差。组间变异系数的 
平方能以与取得组间方差相似的方式得到，即将白人平均收人给予每名白 
人成员，并将黑人平均收入给予每名黑人成员。这一组间项的标准化也是以总 
平均值的平方来进行的。不过，既然各组的变异系数的平方^4„和 4 )lk 是以各 
自组平均值的平方而不是总平均值来进行标准化的，那么就必须使用复合权 
重，它将调整的组群比例与组平均值和总平均值之比的平方组合起来。具体而 
言，白人的复合权重为 [(m — 1) 八 m + w — 1)] ( SwhW 2 , 黑人的复合权重为 
[(« — l)/(m + w — 1)] ( yuk /夕) 2 。 因此， c 2 的加和分解可表达成: 


C 2T = f 213 + c m 

= ^+(^i)(T) 2 ^ + (^t)(T) 2 ^ [4 ' 2] 

泰尔不平等指数了是加和可分解的。总泰尔指数： TT 为组间部分加上组内 
部分。组间泰尔 TB 以与组间方差和组间变异系数的平方相似的方式得到，即 
赋予白人成员平均的白人收入，赋予黑人成员平均的黑人收人。不过，组内部 
分 T w 的权重则与 V 或 C 2 中的情况不同。权重为组群收入在总收人中的 份额: 
白人的权重为 [ W ^ wht/Ow + «)5G = [ w/(w + 72)] ( 夕 wht / 夕）， 而黑人的权重为 
[ w/(m + w )](3> bik / 夕)。 那么，泰尔的加和分解就是： 


JT = + 了 W 


T B + 


m 3^ wht 

m -\- n y 


Twhi 4 




[4.3] 
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变异系数的平方和泰尔不平等指数都是广义熵的特例。在附录中(见作者为本 
书而建立的网站)，我们阐明了广义熵可被以加和方式分解成组间部分和组内部分。 
使用包含黑人一白人分组收人数据的相同例子，我们有以下一般表达 式①： 

GEj = GE l ^ + GE ^ 

= GE, U + ^ )°GE^ ht + —3 — ) W GEn blk 

u m n \ y / u m 十 wVj// u 

请注意，在方程 4. 4 中，两个权重相加通常并不等于1。方程 4. 4将方程 
4.2 和方程 4. 3 —般化，适用于广义熵族中的每一个测量。 

使用方程 4. 1到方程 4. 4以及 SIPP 的2001年白人和黑人的收入数据，我 
们对 V 、 c 2 和了进行分解(见表 4. 1)。总样本规模为23585,其中，黑人的比例 
为 0. 1443。全部样本的平均收人为50911美元，其中，白人的平均收人为 
53655美元，黑人的平均收人为35198美元。对于这些测量，总不平等为组间不 
平等与组内部分(组间不平等的加权总和)之和。得到全部样本、白人样本和黑 
人样本的3个不平等测量很简单。为了建立组间不平等测量，我们通过将平均 
白人收人赋值给每个白人，平均黑人收人赋值给每个黑人来创建一个新的收人 
变量。每个种族群体的权重在3个不平等测量上并不相同。以白人的权重为 
例。对于 V ，白人的权重为调整的白人组群比例 （w — l)/(w + w — 1) = 
[23585(1-0. 1443) —1]/(23585 —1) =0. 8557。因为样本规模很大，因此，这一 
调整的组群比例非常接近于未调整的组群比例。白人和黑人的权重加起来似 
乎等于1，但这是由于很大的样本规模所导致的。调整对小规模样本而言才是 
重要的。 r 2 在白人的权重为 V 的情况下的权重乘以 （5 w hW 2 , 为 0. 9474。请 
注意，两个种族群体的权重相加并不等于1。对于 T ， 白人的权重为 ImKm + 
»)](5 vhW = 0. 9004。白人和黑人的权重之和在这一情形中等于1。这个例 
子解释了与不同不平等测量相联系的各种权重。表 4. 2中的加和分解结果表 
明，总不平等的主要来源是组内部分（97% — 98%)，白人一黑人之间的不平等 
只解释了总不平等中的一小部分(2% — 3%)。 


①原文此处第二行等号后第一项为 (；£? .有误，这里已改为 〔骑 。译者注 
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表 4. 1白 人一黑 人分组收入的3个不平等测量的加和分解 举例: SIPP (2001 年} 


不平等 

测量 

总的 

组间 

白人 

黑人 

白人的 

权重 

黑人的 

权重 

组内加 

权总和 

总的一(组间+ 
加权的组内） 

V 

2077 

(100%) 

42 

(2%) 

2212 

989 

0. 8557 

0. 1443 

2035 

(98%) 

0 

c 2 

0. 7989 
(100%) 

0.0162 

( 2 %) 

0. 7682 

0. 7983 

0. 9474 

0. 0688 

0. 7827 
(98%) 

0. 0000 

T 

0. 3073 
(100%) 

0. 0089 
( 3 %) 

0. 2955 

0. 3239 

0. 9004 

0. 0996 

0. 2983 
(97%) 

0. 0000 


注:样本只包括黑人和白人，一共23585个家庭户。黑人所占的比例为0.1443。全部样本的平均收人 
为50911美元，白人的平均收人为53655美元，而黑人的平均收人为35198美元。方差以百万美元 
的平方为单位.有关得到每一个群体权重的方法.请见正文。 


有两个现成的、用于分解不平等测量的 Stata 程序: “ ineqdeco ” 要求结果变 
量取正数值， “ ineqdecO ” 允许变量取任意值 ( Jenkins ， 1999)。出于举例说明的 
目的，非正数取值已被从 SIPP 的2001年收人数据中删除了。我们使用 Stata 
中的 “ ineqdeco ” 来得到1991年和2001年广义熵族和阿特金森族的子群体分 
解。结果显示在表 4.2 中。尽管广义熵是加和可分解的，但阿特金森族并不是。 
不过，我们可以将阿特金森指数分解为组间部分、组内部分以及体现为组间和 
组内部分乘积的负数的残差之和。我们在表 4. 2中为阿特金森指数的每一数值 
增加了一列残差。该表并未给出基尼系数 G 、 对数方差 x ； 以及对数的方差 w 的 


分解，因为它们都不是加和可分解的，而且，残差部分也不能像在阿特金森指数 
情况下那样，以组间和组内项来得到。 


表 4. 2白 人一黑 人分组收入的3个不平等测量的分解: SIPP ( 1991年和2001年) 


项目 


1991 



2001 


总的 

组间 

组内 

残差 

总的 

组间 

组内 

残差 

GE-i 

1.442 

0.012 

1. 430 

0 

3.022 

0.011 

3.011 

0 

GE , 

0. 284 

0.010 

0.273 

0 

0. 345 

0.010 

0. 335 

0 

GE, 

0. 240 

0. 009 

0. 231 

0 

0.307 

0. 009 

0. 298 

0 

GE 2 

0. 267 

0. 008 

0. 259 

0 

0. 399 

0. 008 

0.391 

0 

A 1/2 

0. 121 

0. 006 

0. 116 

—0. 001 

0. 148 

0. 005 

0. 144 

-0. 001 

A, 

0. 247 

0.014 

0. 237 

—0. 004 

0. 292 

0.012 

0. 283 

—0. 003 

a 2 

0. 742 

0. 037 

0. 733 

—0. 028 

0. 858 

0. 116 

0. 839 

—0. 097 


资料 来源: S 1 PP 。 
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根据人口分组分解不平等的方法可以直接应用于人口子区域。比如，如果 
我们想对南部和非南部以广义熵或阿特金森族指数加以测量的收人不平等进 
行比较，我们就可使用与上面所讨论的完全相同的方法。 

许多有关不平等分解的经验研究工作都关注人口分组。收入或财富由不 
同的要素构成。比如，收入来源包括工资、投资收人、福利支出、私人汇款和资 
本收益/损失。财富要素包括房产、股票和公募基金、储蓄和支票账户以及退休 
基金。有用的是理解要素间变异和要素内变异如何对总收人或总资产净值产 
生影响。与以子群体进行分解的问题不同，允许以收人或财富构成要素进行常 
规分解的不平等测量相对较少。变异系数的平方 c 2 和通常与其等价的测量（比 
如，方差)都允许根据要素进行的分解 （ Cowell ， 2000)。为了说明这点，我们用 
一个资产净值 M 的例子，它等于总资产减去总负债，是一个总财富的测量。岀 
于简洁性的考虑，我们定义两个要素——房产净值 3 W 和所有其他资产的净值 
yBi ，因此1 ： y ; = yM +： ys 。现在令 r 、 ca 和 cb 为总净值、房产净值和其他资产净 
值的变异系数值。令 A 为要素 A 的比例< 为要素 A 和要素 B 之间的相关系 
数。 c 的分解 就是： 

c z = X 2 c \ + (1 — A ) 2 c|j + 2 A (1 ~ X ) caCbp [4. 5] 

既然 GE (2) = c 2 /2, 我们就能够以 G £(2) 的形式来表达方程 4. 5 ①： 

GE ( 2 ) = A 2 GEa ( 2 ) + (1 — A ) 2 GEbc 2) + 2 A (1 — A ) / o %/ GEa (2) GEb (2) 

[4. 5，] 

方程 4. 5 和方程 4. 5' 可被应用于资源变量的任意取值范围，因此，它适用于 
包含很大比例负值和零值的资产净值变量。我们使用 SIPP 的1991年和2001 
年的财富数据，结果显示在表 4. 3中。由于资产净值包含了负值和零值，变异系 
数与只基于反应变量的正数取值的测量并不直接可比。表 4. 3的前三行表明， 
变异系数从 1. 729增加到 8. 841,主要反映了非房产净值不平等的增加：从 


①原文中.方程 4. 5' 右边第二项为 （1 一 A ) 2 G £ a ( 2 >. 这是不对的。在此改正为（丨一 
X ) 2 C ； f ： W2> 。 一译者注 
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2. 518到14.383。表 4. 3中的要素分解，即每一项在整体中所占的比例，能够 
揭示一些令人感兴趣的趋势——总的房产净值在1991年时为 45. 1%，而 
2001年时下降到了 39. 0%——和两个要素之间的相关，这一相关从 0. 352下 
降到0.073。基于这些基本统计结果，我们发现，房产净值的加权贡献从 
14. 6%下降到 0. 5%，而非房产净值的加权贡献则从 63. 9%上升到 98. 4% 0 
方程 4. 5中的第三项源于要素之间的相关，从 21. 5%下降到1%。当以百分 
比的形式来表达时，分解提供了两个分布之间的直接比较，并识别出不平等 
上升的主要来源。 [ u ] 


表 4.3 含两个要素资产净值的变异系数 分解: SIPP (1991 年和2001年) 


项 目 

1991 

2001 

变异系数，总的 C 

1. 729 

8. 841 

变异系数，房产要素的 Q 

1. 466 

1. 630 

变异系数，其他要素的 a 

2.518 

14. 383 

CA 的 比例 : A 

0.451 

0. 390 

要素相关系数 

0.352 

0. 037 

总的: c 2 

2. 991(100%) 

78. 159(100%) 

第1 部分: am 

0.437(14.6%) 

0. 405(0.5%) 

第2部分 ： （1 —X) 2 c 2 b 

1.911(63.9%) 

76. 491(98.4%) 

第3 部分： 2 A (1 — A ) cacb |0 

0. 643(21.5%) 

0.814(1.0%) 


资料 来源: SIPP 。 


尽管基尼系数并不满足加和可分解性原则，但一些研究者将不可加性视为 
一个优势而非局限。两个不同的分解框架是加和的和交互的。在加和分解框 
架下，组间成分描述两个群体之间的平均差异，组内部分则描述剩余的变异。 
在交互分解框架下，组群的特征可被构想为组群的中心位置及其分布的形状。 
不同的中心位置和形状能够导致不同程度的组群重叠。设想一个由两个种族 


群体构成的人口——白人和黑人。不但白人一黑人的平均收人差异较大，而且 


分布的形状也不同。在黑人和白人收人分布重叠的区域中，一些黑人具有比白 
人更高的收入。平均收人差异和组群重叠都可被看成组间差异。如果对平均 
收人如何不同及两个群体如何重叠感兴趣，那么，基尼系数分解就可被用来获 
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取有关信息。 

已有3种方法被提出用于分解基尼系数：（1)图解法 （Lambert Aroson , 
1993) ; (2) 协方差法 (Lerman & Yitzhaki , 1984； Sastry &- Kelkar , 1994) ； (3) 
成对个体收人比较法 （ Dagum , 1997 ； Mussard , Terraza &- Seyte , 2003)。 不管 
何种方法，基尼系数分解都强调组的重叠及隐含在其后的实质含义，同时提供 
对其他不平等测量进行加法分解中所没有的额外信息。 

使用相同的来自 SIPP 的2001年的收人数据的白人和黑人样本，我们计算 
出总基尼系数为 0. 4221，它可被分解成3个部分:组间部分(黑人一白人平均收 
人差异或两个群体之间的总变异)解释了总基尼系数的 10. 6%， 组内部分(每一 
群体内不平等的加权总和)解释了 77. 2%，重叠部分（即这样一个 事实: 一些黑 
人比一些白人具有更高的收入，或者两个群体的转移变异）解释了 12. 2%。这 
些结果与那些使用加和分解得到的结果很不同，比如，泰尔系数和变异系数的 
平方，其中，组内不平等在总不平等中占了压倒性的份额（97%—98%)。组间 
不平等只解释了总不平等的一个较小的百分比(2%—3%)。 

当发生一些特殊情形时，诸如社会阶级这样的群体会依照收人分配而聚 
集，导致只包含组间和组内成分的基尼系数分解 （ Liao , 2006)。社会阶级被定 
义为这样一群 个体: 群体内在收人、教育和职业上是同质的，而群体间在收入、 
教育和职业上是异质的。作者用基于模型的聚类方法 （Fraley Raftery , 
1998), 依据观测的收入、教育成就和职业声望创建了排序好的收人群。因为这 
些群(阶级)被按照收入分配从低到高加以排序，所以跨阶级的成对个体收人比 
较中并不存在转移变异。因此，基尼系数只被分解成两个部分——阶级间部分 
和阶级内部分一而并不存在交互部分。所以，收人分配具有明显社会阶级分 
界的一个社会将会有较大的阶级间部分。扩展基尼系数为处理沿着收人分配 
所产生的集群提供了一个有关如何使用阶级间部分的相对贡献或其修正形式， 
以社会阶级来对某一社会的收人进行分层的清晰解释。为了进一步量化不平 
等的结构，廖福挺进一步发展出结构不平等测量，包括结构基尼系数的单独和 
合计形式以及一套结构泰尔测量 ( Liao , 2009)。 
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选择适合于一个人 U 的不平等测量 

以上讨论的5个原则(请见附表 A 2) 提供了一套基本标准，我们可以用它们 
测量某一特定研究选取的一个或若干个所希望的属性。选择有时依据实质理 
论层面的理由来作出，有时则依据实际应用层面的理由来作出。 

在实质理论层面上，一些研究也许本身就关注所用不平等测量的敏感性。 
强转移原则确保固定距离相同的两名个体之间固定量的收人转移之后，岀现相 
同的不平等减少量，这里所谓的“距离”针对不同的不平等测量专门进行界定。 
因此，强转移原则强调了以距离形式体现的转移规模和不平等测量的变化大 
小。“基数”属性的概念被用来描述此类与大小相关的变化。相对而言，“序数” 
属性的概念被用来描述与序次相关的变化，这是弱转移原则所强调的内容。当 
序数属性成为基本的关注点时，我们在基于它们对收人分布不同部分的敏感性 
而建立的各种测量之间进行选择。比如，阿特金森指数族和广义熵指数族通常 
是等价的，0<0<1且 0= l _ e 。 如果我们主要关注测量的序数属性，我们可以 
选择阿特金森指数或者0在(0, 1) 区间上取值的广义熵，并集中研究使用 e 或0 
的什么值来满足所希望的敏感性。极度敏感性将需要用到0在(0, 1) 区间之外 
取值的广义熵。如果我们关心“基数”属性(即大小），那么就选择广义熵。 

在实际应用层面上，基尼指数是应用最广泛的不平等测量。这一流行性的 
两个主要原因是，其直接得自洛伦兹曲线的直观意义以及其(0, 1) 的取值范围。 
当研究者关心异常值和收人和财富等资源的顶端或底端编码时，基尼指数是相 
对稳健的，因为它是中部敏感的。此外，当可能存在负值时，正如收人和财富中 
经常出现的情形，基尼指数可以处理这些数据，而阿特金森族和广义熵族中的 
大多数测量都不行。不过，分解基尼系数后的残差部分难以解释。对于关注分 
解的研究而言，可以选择广义熵测量而不是基尼系数。 

若干具有共同构成要素的不平等测量可用来深化对不平等现象的理解。 
在规模为《的同一人口中，个体收人的份额可以用个体收入与平均收人的比值 
来表达，即& = a / n ){ yi / y ) 0 使用收人比作为4个概要不平等测量(变异 
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系数的平方、对数的方差、泰尔指数和基尼系数）的统一框架中的共同元素，菲 
尔鲍考察了全球收人不平等的模式 （ Firebaugh ， 1999)。这个统一框架将那些 
不平等测量表达为收人比的函数，衡量该收人比对收人比为 1. 0这一完全公平 
情况的平均偏离（也请见 Atkinson , 1970； Cowell , 2000； Shorrocks , 1980)。 
此框架有助于描述不同的函数如何导致那些不平等测量的不同取值。在菲尔 
鲍的研究中，4个测量中的3个提供了支持性证据表明，数百年来，全球收入不 
平等日益增加的趋势从 I 960 年到1989年趋于稳定。对数的方差 w 是一个例 
外，它对收人分布底端的变化更敏感，因为对数转换对右尾部要比对左尾部压 
缩得更厉害，而左尾部实际上呈现出世界收入不平等的下降。这个例子说明， 
若干具有共同元素的不平等测量可用来对所考虑的不平等模式进行更深入的 
考察。 

最后，回到两个分布之间的位置、尺度和形状改变上来，各种概要不平等测 
量如何捕捉这些改变？同时，它们可被区分开来吗？首先，根据定义，所有尺度 
无关的概要不平等测量都被设计来将其他形状变化与尺度改变区分开来。第 
二，比较两个人口的各概要测量描述了至少两种分布改变——位置移动和形状 
变化的组合。为了将位置移动与形状变化（对于那些并非尺度无关的测量而 
言，也包括尺度改变）区分开来，我们可以将两个人口视为两个群体。然后，我 
们可以使用可分解的不平等测量来将整体不平等测量分解成组间部分和组内 
部分。组间部分反映位置移动，而组内部分则反映形状变化。正如表 4.1 所示， 
黑人收人和白人收人的整体不平等可被分解成 V 、 c 2 和了上的位置改变(组间 
部分)和形状改变(组内部分)。 V (方差)的结果表明，位置移动解释了全部分布 
差异的2%，而尺度和形状变化一共解释了 98%。 c 2 (变异系数的平方)和了(泰 
尔指数)的结果显示，位置移动解释了位置和形状变异总和的 2. 5%到 2. 9%，不 
论是何种尺度改变。 

洛伦兹占优和人口比较 


洛伦兹占优是一个强条件，它确定无疑地表明，收人分布比收人分布 y 
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更加平等。这一具有说服力的能力是以一定的代价换来 的：对 于一对收入分 
布，可能任何一方都不比对方占优，这被称做“洛伦兹交叉”。许多有关收入不 
平等的研究都致力于对不同国家、美国各州、不同时期以及基于种族、性别和年 
龄的社会群体之间的收人分布进行比较。此外，也有研究致力于比较政策对收 
人不平等的影响，关注一项先进的收人转移政策所带来的不平等减少或者一项 
退化的收人转移政策所带来的不平等增加。这一类研究有一个共同的关 注:哪 
种收人分配更不平等？洛伦兹占优提供了判断是否对这个问题给出了可信答 
案的一个基本标准。 

基于第2章中洛伦兹曲线的定义，每当 LAp ) > Ly ( p ) 对所 有的户 e 
[0, 1] (其中，对于某一个 /)， L x ( p )> Ly ( p ) , 也就是 X 和 y 不同)都满足时，我 
们可以断定，收入分配 x 洛伦兹占优于收人分配 y 。 换言之， x 的洛伦兹曲线位 
于由平等线和 y 的洛伦兹曲线所围成的区域内。图 4.1 展示了 X 对 y 的洛伦兹 
占优，其中每个都由5个取值组成 （x = {70, 80, 80, 80, 90}, y = 
{30, 60, 80, 100, 130})。这个例子表明，对于5个 p 中的每一个， x 的累积收 
入份额都大于 y 的累积份额，导致 x 曲线完全位于 y 曲线上方，出现了一种 x 洛 
伦兹占优于 y 的情形。根据这一模式， X 无疑要比 y 更加平等。 



平等线 ——较多不平等 ---- X :较少不平等 


图 4.1 洛伦兹占 优:假 设数据 
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当在某些/>处， LAp )> Ly (, p ), 而在其他处， LApXLy ( p ) 时①，如 
图 4. 2中所示，洛伦兹交叉就出现了。当 x = <0.4, 99.9, 99.9, 99.9, 99.9} 对 
应的曲线和 y = <60, 60, 60, 60, 160} 对应的曲线存在交叉时，就需要另一种 
标准来判断哪种收人分布更平等。因此，洛伦兹占优和交叉概括了两个分布之 
间不平等差异模式的两个宽泛类型。 



—平等线 对称基准线 --- A : 较大的 低区域 —— B : 较大的上区域 

图 4. 2洛伦兹交 叉：假 设数据 

对于小规模人口而言，可以很容易地以画图的方式来说明洛伦兹占优是否 
存在于两个分布之间。当人口规模很大时，比如，一个国家、州或市的真实收人 
分布，我们经常选取有限量个 P 来做图形考察，因为查看所有 P 上的差异是不 
可行的。因此，使用概要不平等测量就变得必要了。这些测量必须首先是洛伦 
兹一致性的。 

洛伦兹一致性是满足我们上面所讨论5个原则的其中3个的一种组 合:弱 
转移原则、尺度无关性原则和人口规模无关原则。如果 x 对 y 的洛伦兹支配表 
明， x 的不平等测量不超过 y 的该测量，那么，这个不平等测量就被认为是洛伦 


①原文此处有错.两种情形都是 LAP ) > L y ( p ) ，这里已将后一处修改为 LAP ) < 
Ly ( p ) o -译者注 
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兹一致性的。但是，如果一个洛伦兹一致性的不平等测量在X中的情形大于在 
y 中的情形，我们就不能认为 x 洛伦兹支配 y。 此表述要求所有洛伦兹一致性不 
平等测量必须全都一致地表现为 x 比 y 更平等，这被称做“洛伦兹一致性不平等 
测量之间的全体一致性排序” (Shorrocks Slottje, 2002)。考虑到洛伦兹一致 
性不平等测量的数量众多(为广义熵族的0和阿特金森族的 e 等参数的宽泛取 
值所扩展），对所有的洛伦兹一致性不平等测量进行考察是不现实的。 

当我们对两个以上的分布进行比较时，全体一致性排序条件甚至变得更不 
切实际。成对比较的数量随着分布的数量呈几何级数增长。[ 12 ]而且我们需要 
对这些成对比较的每一对里的所有洛伦兹一致性不平等测量进行考察。如果 
我们能够找到些许不平等指数，它们就能以较高的准确性来预测洛伦兹占优， 
那就极具吸引力。 

在寻找解决办法时，我们需要更好地理解，为什么使用不同的洛伦兹一致 
性不平等测量可能给出两个分布的洛伦兹占优的不同结果。问题的关键在于， 
不同的测量对分布的不同部位上的收人差异很敏感。比如，基尼系数和泰尔指 
数易受分布中部的影响，而低端1/5份额则易受分布底部的影响。相比而言，参 
数0取较大正数值的广义熵易受分布顶部末尾的影响，而参数0取较大负数值 
的广义熵则易受分布底部末尾的影响。集中3个指数，每一个容易受到中部区 
域、底部末尾或顶部末尾的影响，以较高准确性预测全体一致性排序是可能的。 

基于使用100个洛伦兹一致性不平等测量对80个国家的收入分布所进行 
的研究 (3160 对比较），索洛克斯和斯罗特找出了 3个此类不平等测量 （Shor- 
rocks &• Slottje, 2002)。这些指数以分布的不同部位作为对象。 GE\o ( 6 = \0 
处的广义熵）以顶部末尾作为 对象; ( 0 =— 20处的广义熵）以底部末尾作 
为对象，而中位数以下的份额 L( a5 ) 则以分布的下半部分为对象。由这3个指 
数所得到的模式与使用100个不平等测量所得到模式的99%相一致。少许不 
平等测量的其他组合、具有不同参数 e 的阿特金森族等相同类型的类别或者基 
尼系数和其他测量的组合，都不能以相似的准确性水平来预测全体一致性。 

这里，我们看到广义熵的灵活性如何有助于对不平等进行比较，以及超出 
第3章讨论的常规取值范围[一 1， 2] 的极端0值的有用性。此外，我们也看到 
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不依赖于单个不平等测量的重要性，而许多研究者仍然仅仅使用基尼系数。寇 
姆、阿特金森及森的经典著述都告诫我们，别仅仅依赖单个不平等测量 （ Kolm ， 
1969； Atkinson , 1970； Sen , 1973)。仅使用少数几个如索洛克斯和斯罗特所 
建议的不平等测量，就能够高效且准确地对不同人口的或时间上的不平等进行 
比较。 

索洛克斯和斯罗特的3个不平等测量也许并不能恰好应用于所有的经验研 
究工作中。但是，分布的中下部区域和两个末尾可以作为一个指导原则。我们 
以 SIPP 收人趋势数据，用5个洛伦兹一致性不平等测量对8年中的收入分布 
( 28对比较)进行 比较: 索洛克斯和斯罗特所用到的3个测量(底部50%人口的 
收人份额 L ( o .5) 、两个针对分布末尾部分的广义熵测量 GE - 2Q * G £ 1q ) 加上泰 
尔指数: T 和基尼系数 G 。 表 4. 4给出了针对所考察的这8个年份的5个不平等 
测量。根据第一列为底部50%的人口所拥有的收人份额，将1993年排为最平等 
(最大收人份额)，而将1996年排为最不平等(最小化收人份额)，这与泰尔指数和 
基尼系数所反映的情况 (1995 年最平等，1996年最不平等)类似，但并不完全相同。 
两个针对末尾的测量对年份的排序不同，也与关注中下部区域的测量不同。当关 
注底部末尾时，1988年被排序为最不平等，1987年则为最平等。当关注顶部末 
尾时，1996年被排序为最不平等，1995年则为最平等。我们对5个不平等测 
量中的每一个都进行了 28对比较。这些结果所呈现的全体一致性排序揭示出， 


表 4. 4针对中部和两个末尾的不平等测 量:收 入趋势 


年份 

1(0. 5〉 

T 

G 

GE ( -20) 

GE l0 

1985 

0. 23104 

0. 24678 

0. 38580 

1. 34 E +65 

60908 

1987 

0. 22846 

0. 25165 

0. 38986 

2. 03 E +55 

1414 

1988 

0. 23360 

0. 23588 

0. 37962 

1. 73 E +83 

467 

1991 

0. 23316 

0. 23985 

0. 38132 

1. 42 E +70 

5336 

1993 

0. 23464 

0. 23395 

0. 37859 

3. 05 E +70 

1214 

1995 

0. 23441 

0. 23287 

0. 37781 

4. 67 E +63 

428 

1996 

0. 21001 

0.31931 

0. 42486 

6. 46 E +73 

8857682 

2001 

0. 21078 

0. 30725 

0. 42206 

1. 36 E +81 

281443 


资料 来源: SIPP 。 
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1991年时的美国收人分布比1993年时更不平等。我们认为，1993年收人分布 
洛伦兹占优于1991年收人分布。但是，对其他年份，则不能得到明确的结论。 
尽管我们用了 5个不平等测量，但是这一结论也可以只用索洛克斯和斯罗特提 
议的3个测量而得到。 


小结 


本章将关注点集中在一套广泛使用的不平等测量上，从那些与概率分布相 
联系的测量到那些基于分位数函数和洛伦兹曲线的测量，以及从那些由社会福 
利函数推导得到的测量到那些根据信息理论发展出来的测量。概要不平等测 
量的5个原则有助于选取不平等测量来考察一个人口的收人分布。洛伦兹占优 
为使用最少量的一套不平等测量来对人口收入分布进行比较提供了指导。这 
一人口比较的方法首先根据一个单一分布得到概要不平等测量，然后在不同人 
口之间比较这些不平等测量。一个替代方法是，首先基于两个分布建立一个相 
对分布，然后考察这一相对分布的概要测量指标。这属于下一章的主题。 



第 5 章 I 相对分布方法 


到目前为止，在两个分布的比较中，所采用的方法一直是对每一分布的概 
要统计量进行比较，或者在洛伦兹占优的情况下，确定一个分布的整个洛伦兹 
曲线是否凌驾于另一个之上。通过建立意在描述一个分布如何与另一个分布 
相联系的单一相对分布，相对分布方法可以对收人分布进行更全面的比较。相 
对分布方法的一个优势就在于，它可应用于取值范围没有限制的那些分布。比 
如，当有可能岀现负值时，可以考虑相对分布。此外，相对分布界定了一个无单 
位的测量，使我们可以对想要的测量，如收入、教育年限、身高和体重等各种量 
对应的不同人口的相对分布进行比较，并且可以直接根据相对分布推导出若干 
个不平等测量。另一个关键优势是，相对分布方法允许就分布的特定部分，特 
别是下尾部和上尾部分别进行考察。汉考特和莫里斯为社会科学读者系统地 
介绍了相对分布方法 (Handcock Morris , 1999) ，本章从该来源中汲取了基本 
素材。对于经验研究者，我们给出了可应用于经验数据的公式。本章的目标 
是，将相对分布方法作为对已有概要不平等测量的重要补充来加以介绍。 

相对秩.相对分布、相对密度 

每当要对两个人口的某个量的分布进行比较时，都可以引人相对分布概 
念。为了继续进行，有必要从两个分布中挑选岀其中之一，将其称做“比对分 
布”，另一个则称做“参照分布”。比如，既然黑人人口属于少数人口，我们将黑 
人人口的收人与白人人口的收人进行比较时，通常将黑人收人分布作为比对， 
而将白人收人分布作为参照。 
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相对分布概念的关键取决于这样一种想 法:为 比对人口中的每一单个取值 
3^确定其相对于参照分布的秩。这个相对秩被定义为参照人口中取值不超过 J 
的人口比例。令 F 0 表示参照人口的累积分布函数，那么，这一比例就由 F °(^) 
给出。在这个情形中，确定参照人口中这一 3^值的相对秩的转换被称为“等级 
转换”，且当比对人口的数据被以这一等级转换进行转换时，所得数据被称为 
“相对数据”。在 Stata 中，可以用詹恩编写的程序 “ relrank ” 来进行等级转换并 
创建相对数据 ( Jann . 2008)。 

为了举例说明，我们考虑黑人中位数收人 (26763 美元)在白人收人分布中 
的相对秩。我们在白人收入分布中找岀低于该值的累积概率，也就是收入小于 
26763美元的白人家庭户所占的比例，其恰好等于 0. 2975。因此，应用于黑人中 
位数收人的等级转换为厂=尸（ $26763)=0. 2975,表明典型的黑人家庭户（处 
在黑人中位数收人上)在白人收人分布中，排列在低于1/3的位置处。 

令 y 表示取自比对分布的一个随机值。“相对分布”被定义为这个（随机） 
值的相对秩的分布。我们用尺表示这一随机相对秩，则尺 = F °( y )， 即比对分 
布的一个随机抽取的等级转换。直接根据定义，我们知道，尺取0到1之间的 
值。量 K 可被解释成比对人口中的一个随机抽取在参照人口中的相对位置，这 
里用相对位置，我们意指取值不超过该随机抽取所对应数值的参照人口比例。 

我们用符号 F 表示比对分布(黑人收入)的累积分布函数 ， Q = F - i 表示对 
应的分位数函数，并且，我们令 Y 表示一个以 F 为其累积分布函数的随机变量 
(比如， y 是一个被抽中的黑人收人)。同样， F 0 、 0°和>^表示参照人口（白人） 
中的这些量。作为随机变量，只有一个累积分布函数，被称做“相对累积分布函 
数”，记为 G ; 另外，还有一个概率密度函数(相对概率密度函数），记为也有一 
个分位数函数，被定义为相对累积分布函数的逆，即 QsCr ) = G - i ( r ) c 依据定 
义，相对累积分布函数给出了小于或等于某一给定值 r 的概率，因此，我们可以 
将这表达成比对累积分布函数和参照分位数函数的 形式： 

G ( r ) = PlR = P[F°(y) < r ] = P[y < Q ° ( r )] = F ( Q °( r )) 

换言之，相对累积分布函数 G 等价于后者是由 （ F <> Q 0)( r ) = 
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F ( Q °( r )) 所界定的函数，并被定义成两个函数 F 和 Q ° 的组合。 

相对分布的分位数函数可以通过取相对累积分布函数的逆来 得到： 
(FoQ 0 ) -1 = (Q 0 ) -1 。尸 = F° 。<3 

所以，分位数函数具有以下 形式： Qr(D = Fo ( Q ( r ))。 请注意，如果我们调换比 
对和参照分布的位置，那么，相对累积分布函数 G 就会变成随机变量及= 
F ( Y °) 的累积分布函数，则我们 看到： 

G ( r ) = P [^< r ]= P [ F ( Y 0 ) < r *]= P [ Y ° < Q ( r )]= F °( Q ( r )) 

这是原初的相对分位数函数，即这一颠倒使得累积分布函数等于原初的分位数 
函数，而分位数函数则变成了原初的累积分布函数。 

相对累积分布函数具有简单的解 释:如 同任一累积分布函数一样，它让我 
们可以确定一个分布集中在何处，此处为相对于参照分布的分位数，比对分布 
的分位数集中在何处。它是一个满足 G (0)=0 和 G ( l ) = l 的单调增函数。此 
函数的图形包含在单位正方形 { O , s ): 0< r < l , 0<5<1}中，并从左下角 
(0, 0) 扩展至右上角（1，1)。此函数的图形是一条斜率为1的直线。因此，对于 
变量 r 的所有取值，都有 G ( r ) = r 0 这对应着两个分布相同的情形。 

其他极端情形也有简便的解释。如果相对累积分布函数对于小于某一特 
定值 r * 的 r 值取值为0，然后在 r * 处出现一个大小为1的跳跃,而对于大于 r * 
的「值取值为1，那么我们知道，比对人口中的所有个体都具有与参照人口的第 
r * 分位数相同的取值。更一般而言，相对累积分布函数可以是集中在单位区间 
[0, 1] 上的任意离散概率分布，在此情形下，其图形看上去似乎是平的，除了在 
[0， 1] 的点 n ， r 2 ，…， n 处出现了大小为 / n ，/>2，…，办的々个跳跃之外。 
这种情形与比对分布集中在参照分布的比例为 Pi , P 2, …， Pk 的第々分位数 
Q °( n ), …， Q °( q ) 上的情形相对应。正如在导论中所指出的，相对分布是无 
单位的。知道相对分布并未揭示出与比对或参照人口的分位数真实数值有关 
的信息。在允许我们确定一个分布中的哪个分位数与另一个分布的给定分位 
数相对应这一意义上，相对分布仅仅提供了两个分布之间的一个映射。 

回到上面的例子，我们可以取 r 为 0. 2975,因此，参照（白人)收人分布的第 
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r 分位数为 26763美元。另一方面，26763美元是比对（黑人）收人分布的中位 
数，因此，我们可以将以上等级转换观测解释成表达了特定取值 0. 2975处的相 
对累积分布 函数： 


G (0. 2975) = F ( $ 26763) = j 


可以对位于 0 到 1 之间的每个 r ■值进行类似的计算，得到一个有关这两个收人 
分布之间关系的综合概括。 

基于针对两个人口而收集得到的数据，我们用一种简单的两步骤方式来完 
成刚才所说明的计算，以得到经验相对累积分布函数。首先，我们确定参照分 
布的(经验)分位数函数。令参照数据为…， W ， 将这些值按从小到大的顺 
序进行排列，得到序次统计量必），…， yl ) o 我们通过取得0°(々/(« + 1))= 
y ° ( k ) 来界定形式々/(« + 1)的 r 值处的经验分位数函数。对于连续取值上的 r , 如 
k / ( n +1) 和（々+ 1)/(« + 1)，我们以线性内插来定义 <5( r )， 即 


Q °( r ) = 


r -(々/(« + l )) o 
l/(w + l) - y<H_1) 


((/ fe + l )/(» + l))-r o 

l/(« + l) y(k) 


接下来，我们利用比对样本 W ， …，> 来完成经验相对累积分布函数的计 
算。对于任一给定的「值，我们 取得： 

亡 ( r ) = iyi ^ Q °( r )} 的数目 
n 

比对样本％， …，％ 中的数值小于或等于的比例。 

其他有关两个分布之间关系的定性表述可以根据相对累积分布函数来得 
到。完全落人对角线下方的相对累积分布函数的图形，即对于所有的〜有 
G ( r ) < r 与对于 r * 的所有取值，有 0 Q ( r ) < QO ) 这一条件相对应，意味着参照 
分布的分位数都没有超过相应的比对分布的分位数。比如，参照人口中的第25 
百分位数小于或等于比对人口中的第25百分位数，参照人口中的第50百分位 
数小于或等于比对人口中的第50百分位数，参照人口中的第75百分位数小于 
或等于比对人口中的第75百分位数，如此等等。极深刻的意义在于，比对人口 
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比参照人口更富裕。相反，完全处在对角线上方的相对累积分布函数的图形， 
即对于所有的 r ， 有 G ( r ) ，则其与对于 r 的所有取值，有 0 Q ( r ) > Q ( r ) 这一 
条件相对应，意味着比对人口的分位数都没有超过相应的参照分布的分位数。 
如果相对累积分布函数呈现含 G ( l /2) = 1/2的倒 S 形，这就对应着如此 情形: 
那些处在比对人口更低分位数中的人，比那些处在参照人口对应分位数中的人 
更穷，而那些处在比对人口更高分位数中的人，比那些处在参照人口对应分位 
数中的人更富。 





(a) 


( b ) 



图 5.1 相对累积分布函数的3种情形 


相对分布具有单调转换无关性的诱人性质。给定一个单调增函数 A 如果 
我们将这个函数应用于参照和比对人口中，相对累积分布函数不会被改变。比 
如，我们对两个人口中的所有收人都进行对数转换.相对分布就不会受影响。 
因此，任何依据相对分布推导得到的概要统计量，都将具有这一无关性性质。 
为了理解这一性质如何保持不变，来看看的累积分布函数，转换后的比对 
值 y 变成如下 形式： 

PC0(y)<x]= PLY < 0- 1 (x)]= FC^r 1 Cr)) 

使得累计分布函数为组合函数 F 。 厂 i ， 同时， 〆 Y ) 的分位数函数变成了 
( Fo ^- i )- 1 = rQo 同样，转换后的参照值的累积分布函数和 

分位数函数分别由和给出。然后，转换后的相对累积分布函数变 
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成了下述组合： 

(厂。4)。（4—1。0°) = F 。^ 

这与转换前的相对累积分布函数完全一样。 

累积分布的概要统计量可用来对比对分布和参照分布进行比较。比如，相 
对分布的均值， 


E ( R ) = ^ rg ( r)dr = ELF ° m ^= J F °( y ) Ay)dy 

r=0 y —~ 00 

给出了取值落在从比对分布中随机抽取的数值之下的参照人口的期望比例上。 
比如，对于各对相同的分布，这个值是1/2,因此，一个极其自然的做法就是将相 
对分布的均值与1/2进行比较。当 E ( R )< 1/2时，平均而言，不到一半的参照 
人口将具有落在从比对分布中随机抽取的数值之下的一个取值，因此，大多数 
人通常都将具有一个更大的取值。粗略地讲，我们可以认为，比对人口具有比 
参照人口更低的取值。当 E ( i ?) > 1/2时，我们可以得到相反的结论。 

同样，相对分布的中位数 

G ( l /2) = F ( Q °( l /2)) = P [ Y < Q °( l /2)] 

由取值落在参照人口中位数之下的比对人口的比例给出。因此，条件 G ( l /2) < 1/2 
显示了参照人口将具有比比对人口更小取值的倾向。如果 G ( l /2)> 1/2,我们 
会得到相反的结论。 

相对比例和相对密度 

相对比例也容易解释，尽管它描述了比对分布中各分位数上的个体，以参 
照分布的分位数来看集中在何处。对于任意概率密度函数，曲线下方的面积都 
是1，某点上的函数也就是该处相对分布的导数。两个值 n 和 r 2 之间曲线下的 
面积为取值位于参照人口的第 n 和第 r 2 分位数之间的比对人口的比例。 


就相对累积分布函数的表达式 G ( r ) = F ( QO ( r )) 对 r 求微分，得到一个相 
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对密度函数的表 达式: 


尺 （ r ) 


f(Q°(r)) 

/°(Q°(r)) 


[5. 1] 


假如数据是从两个总体中抽样得 到的: 妁，…， Vt 来自参照总体，而 Yi ， …， 
Y ,, 来自对比总体，那么，相对密度估计的最直接方法建立在相对比例的基础之 
上。我们选取在其上计算分位数的一些值。在接下来的讨论中，我们用十分位 
数。我们用参照数据来计算参照样本的十分位数 < S Q (;/10)。 然后计算位于每 
个1/10 = [ Q 0 ( z '/10), Q°(z + 1/10)) 中的比对样本的比例朽。在区间 ■/, 上 

取值的分段常数函数为 A ，可被看做相对密度的一个简单估计量。假定比对分 
布和参照分布相同，那么，我们预计此函数看上去会很像[0, 1] 上的均勻密度， 
也就是说，我们期望该值在整个区间上的取值接近于1。对这一基准情形的偏 
离也易于解释。 

估计相对密度的更复杂的方法也很容易得到。实际上，根据数据来估计相 
对密度，要比估计相对累积分布函数 G 精巧得多，因为，正如方程 5. 1所反 
映的，确定某个取值 r 上的概率密度函数涉及在参照分布分位数 Q G ( r ) 上，以数 
据来估计参照分布和比对分布两者的概率密度函数。因此，为了理解所涉及的 
问题，只需要考虑基于一个样本来估计一个分布的概率密度函数的问题。下面 
是对核密度估计的一个简单讨论，旨在让那些不熟悉密度估计的读者认识一些 
主要问题。 

我们现在考虑一个从概率密度函数为/的分布 F 得到的样本 Xi ，…， X „。 
既然 / Cr ) 是 F 在: r 上的导数，我们可以将其 写为： 

fU)= F f U) = lim A —o F(j ： + A)-F(^-A) 


并且，我们可以通过取一个很小 的 △ 值并求解下式来估计 fix ).. 

r / \ F(x + A ) — F (x — A) 

/(x) = - m - 


[5.2] 


这里, PCr ) 表示基于样本的经验概率密度函数，也就是 
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p U) = X ,< x 的数目 

n 

方程 5.2 中的分子就是落在区间[: c — A , x + A ] 上的数据点 X ,的数目，密 
度估计值就是: r 附近每个单位长度上的数据点所占的比例。 

改进后的密度估计有两个重要的方面。第一，刚才介绍的简单密度估计量 
可以表达成以下 形式： 



X ,- 


△ 


这里，0是以如下形式定义的 函数: 


Ku) 



(| u |<1) 

(I M |> 1) 


即区间 [_1, 1] 上的均匀概率密度函数。这样的密度估计量被称为“具有核必 
的核密度估计量”。在这种情况下，核是长方形的。但是，它现在被理解成，如 
果我们以一个关于0对称的修匀概率密度函数来替换这个函数，可以获取相当 
大的效率。第二，常数△被定义为估计量的“带宽”，△的选择被证明是很关键 
的。选择的值太小，会得到一个偏误低但方差大的估计量，而选择的值太大，则 
会得到方差小但偏误高的估计量。许多统计研究一直关注选择一个最优带宽 
的问题，它将同时使得偏误和方差两者最小化(詹恩编写的 Stata 程序 “ reldist ” 
提供了许多核密度方法来估计相对概率密度函数）。对各种方法的讨论超出了 
本书的范围。不过，对于读者而言，重要的是要明白，相对密度估计的方法论大 
大依赖于这些基本观念。 

基于应用于黑人收人和白人收人这一相同例子的 Stata 编码，我们用相对 
比例来对相对分布方法举例说明。首先，我们对黑人和白人内部的收人数据加 
以排序。十分位数将白人人口区分成10个等规模的段(见表 5. 1的前两列）。 
比如，白人中最贫穷的10%拥有不到12580美元的收人，而最富裕的10%至少 
拥有103098美元的收人。有10个十分位数 段：最 小值到12580美元、12580美 
元到19828美元，直至103098美元到白人收人的最大值。白人中的10%落在 
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每一个十分位数段内。然后，我们确定黑人在由白人的十分位数所界定的各段 
内的各个比例(见第三列）。 

白人的十分位数与黑人收入分布中完全不同的十分位数相对 应：白 人的第 
一个十分位数对应着黑人的 0. 234分位数，而白人的第九个十分位数则对应着 
黑人的 0.968 分位数。这意味着，最贫穷的 23. 4%的黑人拥有不到12580美元 
的收人，而 3. 1%的黑人 (1 -0. 969) 至少拥有103098美元的收入。现在，我们 
准备计算白人十分位数段上的各个比例比。 

我们根据他们各自的各分位数段，得到白人的比例和黑人的比例,如第四 
列和第五列所示。然后，我们取一个黑人比例与对应的白人比例的比值得到 
相对比例（见第六列）。相对比例从第一段上的 2. 341下降到最高段上的 
0. 311。 


表 5.1 黑人一白人的相对 比例: SIPP(2001 年) 



累积比例 

比 

例 

相对比例 

日人叹入的卞奴 

白人 

黑人 

白人 

黑人 

黑人相对于白人 

最小值 

0.0 

0. 000 

— 

— 


12580 

0. 1 

0. 234 

0. 1 

0. 234 

2. 341 

19828 

0. 2 

0. 384 

0. 1 

0. 150 

1. 498 

26952 

0.3 

0. 504 

0. 1 

0. 120 

1. 204 

34199 

0.4 

0. 601 

0. 1 

0. 097 

0. 969 

42165 

0.5 

0. 697 

0. 1 

0. 096 

0. 958 

51720 

0. 6 

0. 780 

0. 1 

0. 083 

0.831 

62983 

0. 7 

0. 855 

0. 1 

0. 075 

0. 746 

78067 

0.8 

0. 914 

0. 1 

0.059 

0. 590 

103098 

0. 9 

0. 969 

0. 1 

0. 055 

0. 549 

最大值 

1.0 

1. 000 

0. 1 

0.031 

0.311 


资料 来源 : SIPP 。 


图 5. 2( a ) 展示了白人收人和黑人收人的密度函数，明显具有不同的中心 
位置和形状。图 5. 2( b ) 画出了对应十分位数段上的黑人对白人的相对比例。 
正如上面所阐明的，我们将绘出的曲线视为对相对密度的一个近似，同时， 
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我们看到，这一相对密度曲线是下斜的， 0.4 下方出现了比上方更加陡 
峭的下降。 



—白人 --- 黑人 


——白人 ——黑人 

(b) 

图 5. 2黑人一白人相对收入 分布:黑人一 白人收入密度函数和黑人一白人相对比例 

相对密度的分解 

在第2章中，我们介绍了有关分布的位置、尺度和形状的概念。以参照分布 
为基准，比对分布可被视为是通过将一些操作应用于参照分布而得到的——首 
先应用位置移动，然后应用尺度改变，最后是形状变化。对相对分布的研究相 
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当于将参照分布的分位数作为首选的测量单位。相对密度分解利用这一思路 
来描述这3种操作的效应。 

在我们关于黑人一白人收入差异的例子中，通过以白人收入分布为参照， 
从而使调整位置的白人收入成为比对分布，纯粹的位置移动能够以相对密度的 
形式描述。在保持形状不变的情况下，这一位置调整以同一数量减少每个白人 
家庭户的收人，以得到相同的分布中心。除纯粹的位置移动之外，两个分布在 
形状上不同，这通过将黑人收入与位置调整的白人收人加以比较来反映。我们 
可以进一步将形状变化分解到随形状变化而来的尺度改变中。 

我们以一个简单的两成分分解为例来说明，这个例子描述了将一个参照先 
做位置移动，然后做尺度或形状改变而得到的比对分布。首先，我们创建了一 
个密度函数为 /° L 和累积分布函数为的调整位置的参照随机变量 Y GL 。 令 
埤和4为 y 和的均值，因此，调整均值的参照变量为= y q + (/^- 
^),而两个分布的形状仍然相同。我们可以采用代数形式将比对分布的相对 
密度(方程 5.1) 表 达为： 


( s = f(Q°(r)) _ f 0L (Q°(r)) f(QHr)) 

g ~ /°(Q°(r)) _ /°(Q°(r)) / 0L (Q°(r)) 


总之，整体相对密度为位置移动的相对密度乘以一个表达式，该表达式描 
述了在参照分布已被移动位置之后，使两个分布相匹配所需的额外的形状改 
变。请注意，所有的相对密度都以参照分布的同一个第 r •分位数 Q c ( r ) 为参照。 

对于经验数据，: y ? ，…，: A 来自参照总体，而 yi ，…，：来自对比总体，方程 
5.2 中形式的分解可以用以上所介绍的相对比例建构来进行。方程 5. 2中的每一 
项都可以作为参照分布的每一个估计的十分位数段 Li /10, i + 1/10] 上的某一常 
数来进行估计，而 t /10, / + 1/10] 上 r 的相对密度表达式为两个比 的积： 


g(r) = 



[5. 3，] 


我们为调整位置的参照数据引人符号: y? L = W + 6— 沪），其中 i = l , 
因此，5 1 和 W 表示样本均值。第一个比值 项为： 
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中 : y ? 1 - 的比例 
Ji 中: v ? 的比例 


=10 X /,•中: y ? L 的数目 


其中， J , =[ Q ° G /10)， Q °(( i +1)/10))。 这一比值项为调整位置的参照分布对 
于未调整参照分布的相对密度的一个估计值。第二个比 值为： 


J , 中 y 的比例 
Ji 中: v ? L 的比例 


沿用我们有关黑人一白人收人的例子，我们使用均值调整来得到调整位置 
的白人收人分布。黑人的平均收人为18457美元，低于白人的平均收人。我们 
将每个黑人的收入减去18457美元来构建调整位置的白人收入，它与黑人收人 
分布具有相同的均值，但保留了原始白人收人分布的尺度和形状。调整位置的 
白人收入对于原始白人收入的相对比例，以与整体相对比例同样的方式来取得。 
请注意，黑人收人对于调整位置的白人收入的相对比例，以原始未调整白人分布 
的分位数为参照。我们在表 5. 2中对此做了示例说明。第一列给出了原始的白人 
十分位数(与表 5.1 第一列相同）。第二列显示，与原始白人收人十分位数相对 


表 5.2 黑人对于调整位置的白人的相对 比例: SIPP(2001 年) 


白人收人的 
十分位数 (>) 

累积比例 

比例 

相对比例 

调整位置 
的白人 

黑人 

调整位置 
的白人 

黑人 

黑人相对于调整 
位置的白人 

最小值 

0. 000 

0. 000 

—— 

— 

一 

12580 

0. 358 

0. 234 

0. 358 

0. 234 

0. 654 

19828 

0. 451 

0. 384 

0.093 

0. 150 

1. 604 

26952 

0. 535 

0. 504 

0. 084 

0. 120 

1.434 

34199 

0. 610 

0. 601 

0.075 

0.097 

1.294 

42165 

0. 680 

0. 697 

0.070 

0. 096 

1.366 

51720 

0. 751 

0. 780 

0. 071 

0. 083 

1. 172 

62983 

0.818 

0. 855 

0.067 

0.075 

1. 115 

78067 

0.881 

0. 914 

0. 063 

0. 059 

0. 944 

103098 

0. 935 

0. 969 

0. 054 

0. 055 

1.013 

最大值 

1. 000 

1. 000 

0. 065 

0.031 

0. 479 


资料 来源: SIPP 。 
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应的调整位置的白人收人的分位数段不再是等规模的。原始白人收入十分位 
数上的黑人收人密度的结果与表 5. 1中的相同。黑人对调整位置的白人的相对 
比例显在该表的最后一■列中。 

图 5. 3( a ) 呈现了调整位置的白人收人对于白人收人的相对密度，它刻画了 
位置移动。它表明，调整位置的白人在低端处存在一个高的集中。我们将此解 



(b) 

图 S .3 分解相对 分布: SIPP (2001 年) 的黑人和白人收入(位置移动的相对比例和形状改变的相对比例> 
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释为，黑人一白人位置差异源于在收人分布的低端尾部不成比例地放置了更多 
的黑人。图 5. 3( b ) 呈现了黑人收人对于调整位置的白人收入的相对密度，它刻 
画了形状改变。形状改变的相对比例在两端尾部更低，而在第二个到第五个十 
分位数段上更高。这揭示出，黑人一白人尺度或形状改变促成了将更多的黑人 
划分成中低收人者。 

根据这两个相对比例，我们准备对整体相对比例进行分解，如表 5. 3所示。 
在每一分位数段上，整体比例为调整位置的白人收人对于原始白人收入的相对 
比例和黑人收入对于调整位置的白人收人的相对比例的乘积。 

同样的思路自然地扩展至允许对整体相对密度进行三成分分解。我们可 
以顺利地将形状改变所对应的成分分解成尺度改变和非尺度的形状改变。令 
尸 ls 为调整位置和尺度的参照分布的概率密度函数。方程 5. 1从而可被扩展成 
如下 形式： 


n = f ( Q °( r )) = f 0 L ( Q °( r )) fOLS(QQ( r )) f ( Q °( r )) 

g ~ /°( Q °( r )) _ /°( Q °( r )> /0 L ( Q 0( r )) A 

[5.4] 


表 S .3 整体相对比例 ( RP) 分解为位置和形状改变的顺序 分解: S1PP(2001 年) 


1 

2 

3 

4 

5 

6 

原始白人分布 
的累积比例 

原始白人收人的 
十分位数 

整体 RP 

位置移动 

形状改变 

(4)X(5) 

0 

最小值 

2.341 

3. 579 

0.654 

2. 341 

0. 1 

12580 

1.498 

0. 934 

1. 604 

1.498 

0.2 

19828 

1.204 

0.840 

1. 434 

1.205 

0. 3 

26952 

0. 969 

0. 749 

1. 294 

0. 969 

0.4 

34199 

0.958 

0. 701 

1.366 

0. 958 

0.5 

42165 

0.831 

0. 710 

1. 172 

0. 832 

0. 6 

51720 

0. 746 

0. 669 

1. 115 

0. 746 

0. 7 

62983 

0. 590 

0.625 

0. 944 

0. 590 

0. 8 

78067 

0. 549 

0. 542 

1.013 

0. 549 

0. 9 

103098 

0.311 

0. 650 

0.479 

0.311 

1.0 

最大值 

— 

— 

— 

— 


资料 来源: SIPP 。 
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总之，整体相对比例为位置移动的相对密度、一个描述尺度改变的密度比 
值项和一个对位置和尺度效应已被解释之后所遗留的效应进行解释的密度比 
值项。由于各项是被接连纳人的，其中每一个新的项就针对分布的额外修正加 
以解释，所以，此分解属于顺序分解。所得到的分解关键取决于各项被纳人的 
次序。比如，如果我们先对尺度进行调整，然后对位置进行调整，结果将会是完 
全不同的分解。此外，应再次指出，每一密度项都以原始参照分布的第 r 分位数 
为其参数，只有分解式中的第一项比值才是相对密度，因为在该项中，密度的参 
数为分母概率密度函数的分位数。 

对于之前的分解(方程 5. 31，我们可以使用数据来将相对比例分解成各相 
对比例项的乘积，其中，每一项都源于一个特定类型的 修正： 



在三成分分解中，除了我们现有涉及位置以及尺度调整的各项之外，我们 
还需要计算计数的比值，正如我们在两成分分解中所做的那样。尽管方程 5. V 
右边的最后两项由表 5. 2中说明的那样得到，但两项分解中的方程 5. 4' 处出现 
的各项可像之前那样计算得到。方程 5. 4' 第二项分子中的计数为调整位置与 
尺度的白人收人。对于这些计数，我们将每一个白人的收入乘以黑人标准差对 
于白人标准差的比值，然后调整平均差。比如，令&和4表示比对和参照数据 
的标准差，那么，调整位置与尺度的参照数据 变成： 

s y 

那么，第二个相对比例项具有以下 形式： 

h 中;的比例 
Ji 中的比例 


继续关于黑人一白人收人的例子，表 5. 4给出了顺序三成分分解，首先位置 
移动(第四列），然后尺度改变（第四列），最后非尺度的形状改变（第六列）。图 
5.4 提供了位置移动之后的尺度改变和形状改变的图形样式。图 5. 4( a ) 显示， 



评估不平等 


531 


黑人收人的尺度比白人收人的更小，集中在第二个十分位数到第七个十分位数 
这一段上。图 5. 4( b ) 显示 ，一 旦尺度差异被排除，黑人收人就比白人收人更加 
两极化，因为更多的黑人处在调整位置和尺度的分布的两端。 


表 5.4 整体相对比例 （ RP> 分解为位置、尺度和剩余形状改变的顺序 分解: SIPP(2001 年) 


1 

2 

3 

4 

5 

5 

6 

原始白人分布 
的累积比例 

原始白人收入 
的十分位数 

整体 RP 

位置移动尺度改变 

剩余形 

状改变 

(4) X (5) X (6) 

0.0 

最小值 

2. 341 

3. 579 

0. 534 

1.226 

2.341 

0. 1 

12580 

1.498 

0. 934 

1. 665 

0. 964 

1.498 

0.2 

19828 

1.204 

0. 840 

1. 677 

0. 855 

1.204 

0. 3 

26952 

0. 969 

0. 749 

1. 565 

0.827 

0. 969 

0.4 

34199 

0. 958 

0. 701 

1.496 

0. 913 

0. 958 

0.5 

42165 

0.831 

0.710 

1.341 

0.874 

0.831 

0.6 

51720 

0.746 

0. 669 

1. 107 

1. 007 

0. 746 

0. 7 

62983 

0. 590 

0.625 

0. 847 

1. 115 

0. 590 

0.8 

78067 

0. 549 

0.542 

0. 681 

1.488 

0. 549 

0. 9 

103098 

0.311 

0. 650 

0.483 

0.991 

0.311 

1.0 

最大值 

—— 



— 

—— 


资料来源 : SIPP C 


—调整位置和尺度的白人 --- 调整位置的白人 


飞 o.i 
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( a ) 
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-黑人 -调整位置和尺度的白人 

(b) 

图 5. 4整体相对分布分解为位置、尺度和剩余形状改变的顺序 分解： 

黑人和白人收入(尺度改变的相对比例和非尺度的形状改变的相对比例） 

尽管密度比和分解给我们提供了比较两个分布和理解这些分布之间差异 
来源的工具，但是有两个特殊的概要测量可用来简洁地刻画差异的特征。下一 
节，我们将继续讨论相对熵和中位相对极化 ( MRP ) 。 

相对分布的概要测量 

概括相对密度的测量将有助于对我们的许多研究问题提供间接的答案。 
比如，黑人和白人收人分布之间的分化程度有多大？当与参照分布相比较时, 
比对分布是如何被两极化的？相对熵和 MRP 可被用来回答这些问题。 

相对熵 

在第3章中，我们介绍了分配不平等的各种测量，比如泰尔指数和广义熵测 
量。这些量测量了单一分布的内在不平等程度。替代方法之一是测量相对于 
某个参照分布的不平等。为此，我们引入“相对熵”的概念。给定具有正相对概 
率密度函数 g 的比对和参照分布，相对熵被定 义为： 
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g(r)\og(.g(r))dr [5. 5] 

J r=0 

此表达式明显与熵的定义相似。但是，将此表达式视为熵的一个测量却有 
误导性。首先，考虑到离散情况下熵的定义，我们预计方程 5. 5中有一个负号， 
因此，这个量测量了与熵相反的内容。即使我们修正方程 5. 5中的符号,但当我 
们以离散分布来逼近连续分布时，将熵的概念扩展至连续分布的情形仍然存在 
一些关键的技术问题，因为当区间大小减少至0时，我们倾向于执行的求极限的 
操作导致忽略了趋于无穷的一项。 

理解方程 5. 5的更好的方法是使用一个分布和另一个分布的库尔贝克-莱 
伯勒距离概念，随后对其进行介绍。设想我们有一个观测样本 A ， …，，且 
我们想检验的零假设为该样本取自一个概率密度函数为 P 的分布 P ， 针对的备 
择假设为该样本取自一个概率密度函数为 g 的分布 Q 。 尼曼-皮尔逊定理告诉 
我们，任一给定水平 a 上最有效力的检验为拒绝零假设的似然比检验 （Neyman 
&- Pearson , 1933) ，前提是对数似然值 


log A = log 






f q(Yi ) 


§ l0g (p(Y,) 


超过取决于 a 的某一常数 c a 。 对数似然值为独立同分布随机变量的和，因此， 
若假定备择假设为真，当样本规模趋于无穷大时，我们可以用大数定律 得到： 

} log (韻)心)办 

jr= ― oo 

当 g 不同于时，我们预计似然比通常取接近1的值。因此，该值超过1的 
程度就由最后的积分来进行测量，该积分被定义为 P 距 Q 的库尔贝克-莱伯勒 
距离，记为 IXP，QXKullback &- Leibler , 1951； Soofi , 1994)。我们可以证明， 
该量是非负的，当且仅当两个分布重合时才取零值。我们将库尔贝克-莱伯勒 
距离用于测量 P 距 Q 有多远。不过，将这理解为“距离”时要谨慎，因为，如 
D ( P ； Q ) = D ( Q ； P ) 通常并非如此。 

回到相对熵(方程 5. 5)，我们用方程 5. 1将其重新写成如下 形式： 
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/( Qo ( r )) , / /( Qo ( r )) 

/ o ( Qo ( r )) ° g V / o ( Qo ( r )) 


dr 


改变一下变量 ：y = QoO ) ，得到 r = Fo ( y ) 和 A = fo (, y ) dy 0 此表达式具有如 
下 形式： 


if^MfM"> My)dy=mFoiF) [5 . 5 '] 

即距 F 的库尔贝克-莱伯勒距离。 

以十分位数段上相对比例的形式来表达相对熵就非常直接明了。我们可 
将方程 5. 5' 写为 


D ( F ： F 0 ) = 



继续我们有关黑人和白人收人的例子，我们用方程 5. 5' 计算出2001年的整 
体相对熵为 0. 137。 

相对熵有一个重大缺陷，这可以追溯到会受对熵的属性进行重新排序影 
响的不变性。如果一个分布是通过打乱概率质量而由另一分布得到的，两个 
不同的相对分布将具有相同的熵。更精确地讲，如果 g 是相对密度，且对于某 
一保测函数 [ 13 ]/ i :[0, 1] [0, 1]，有 g ( r ) = g ( h ( r )), 那么， g ■和 g 具有相同 
的相对熵。因此，如果考虑 g 在每一个十分位数段上为常数的情形，若 g 在第 
十分位数段 [(i 一 1)/10， i /10) 上取值沿，其中 i = 1，…，10,且 g ■也取相同 
的值，但两者处在不同的十分位数段上，那么，各十分位数段被重新排序， g 和 
g 的相对熵仍然相同。因此，相对密度中峰和谷的实际位置，对其相对熵并没有 
影响。 


相对极化 


如果一个分布存在向尾部而不是中部集中的倾向，那么，它就被说成是极 
化的。“极化”是刻画一个分布的尺度或形状的另一种方式，而且这种刻画可以 
是相比而言的。我们经常问，一个比对分布是否比参照分布伸展得更宽(更窄) 
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或具有更重(更轻)的尾部？比如，我们想知道，当与白人收入分布进行比较时， 
黑人收人分布是否更不伸展且集中在下半部（即朝该分布的中位数集中）？相 
对熵并不能提供这一问题的答案。 

MRP 指数是一把有关比对分布的更为极化程度的测量工具。它被以比对 
分布相对于调整位置的参照分布的相对分布形式来定义，这里的参照分布属于 
调整中位数的分布，因此，两个分布的中位数相同（中位数调整优于均值调整， 
由于均值在偏态分布情况下的缺陷）。我们用符号表示一个随机变量，它的 
分布是比对分布和参照分布之间的相对分布。此随机变量可被理解成调整位 
置的参照分布中，等于或小于某一个从比对分布中随机抽取的值的人口所占的 
比例。然后，我们以绝对值来测量平均偏离1/2多远，并通过下式将相对极 
化定义成该均值的一个线性 变换： 

MRP ( F ； F °) = 4 E [| Rql - 1/2 | ]-1 [5. 6] 

我们选择此线性变换(期望偏差的 4 倍减1)，得到一个取值在一1到1之间 
的指数。考虑一些更重要的特例会增加这一指数的可解释性。如果两个分布 
在经过位置调整后重叠在一起，那么，正如前面指出的，在区间[0, 1] 上具有 
均匀分布，且在这种情况下， E [| J ? oi .~ l /2 |] = 1/4,这使得 MRP 指数等于0。 
不存在相对极化的最极端情形为，比对人口在参照人口的中位数上集中。在这 
种情况下，恥 I . 是一个取值为1/2的常数随机变量，因此， E [|/? ol -1/2 |] = 0, 
这使得 MRP 等于一 1。最后，相对极化的最极端情形为 ，一 半的比对人口具有 
与参照人口的最小值相等的取值，而另一半则具有与参照人口的最大值相等的 
取值。在这种情况下，以1/2概率取0值，1/2概率取1值，使得 | i? G L — 1/2丨 
成为一个等于1/2的常数随机变量。这时，£[| i ? oL - l /2 |] = 1/2,那么我们 
看到， MRP 的取值为1。 

一个大于0的 MRP 表明，比较组比参照组更极化，而一个小于0的 MRP 
则表明，比较组比参照组更不极化。因此， M RP 提供了与被比较分布的上半 
部、下半部上差值的方向和数量有关的信息。 

MRP 指数的取值可被理解成人口从更中心位置到更不中心位置的一个比 
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例改变。比如，黑人一白人收入比较的 MRP 为 一0. 2299,这意味着，与白人家 
庭户比起来， 22. 99%的黑人家庭户朝中位数集中。这似乎反映出，白人的收入 
尺度比黑人的收人尺度更宽。 

基于数据来计算 MRP 可描述如下。令 m 和;^分别表示比对和参照分布 
的样本中位数。对于 z = 1, n , 调整中位数的参照数据为 y a i = y Q i +{ m - 
ma )。 对于 f = 1, …， r ;， 我们使用经验等级转换来将这些值转化成相对调整中 
位数的 数据心 = F ^ Cyi ), 即取值小于或等于 y 的调整中位数的参照数据点的 
比例，得到样本 MRP 为： 

MRP = -(E I P ,- -1/2 |)-1 [5. 6'] 

n «=l 

MRP 指数具有其他重要性质。具体而言，它是反对称的，意味着调换比对 
和参照将得到一个大小相同而符号相反的指数。为了理解这点，请参看图 5. 5, 
它针对具有相同中位数的比对和参照分布的模拟选择，画出了一个 G ( r ) 的示例。 
中位数相同的事实确保该函数的图形通过单位正方形的中心点（1/2, 1/2)。如果 
我们令 r 为区间[0, 1] 服从均匀分布的随机变量，那么， Q ( r ) 的分布就是从比对 
分布中抽样得到的随机变量 Y 的分布，同时, F ° ( Q ( r )) 具有随机变量 i ? 的分 
布。因此，我们可以 写为： 

1 

E | R - l /2 |= f 丨 F >( Q ( rO ) — 1/2 I 办 

r=0 

此积分在图中被表示成以竖条填充的面积。但是，如果我们将参照和比对 
分布对调，正如前面看到的，我们将得到一个随机变量及，其分布是新的相对分 
布，且其累积分布函数为尺的累积分布函数的逆。此外， E | 及一 1/2 | 为以横条 
填充的面积。显然，这两块面积之和为1/2。因此，我们可以 写为： 

E | R -1/2 | + £ | 犮一 1/2丨=1/2 


另外， 


(4 E | R -1/2 |-1) + (4 E | 犮 一1/2 I —1) = 4(1/2) -2 = 0 
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也就是说，这两个 MRP 指数的和为0,换言之， MRP ( F ； F 0 ) =— MRP ( F > ; F )。 



图 5. 5中位数相对极化对称性的示例说明 


MRP 的一个可能缺陷仅仅在于，它未揭示分布的哪一个尾部是极化的来 
源。为了消除这点， MRP 可被分解成下部和上部极化。这要求我们针对调整 
位置的相对分布的下半部和上半部分别进行计算。在图 5. 5中，这相当于用左 
下角正方形中以横条填充的部分计算下部相对极化 ( LRP )， 并用右上角正方形 
中的部分计算上部相对极化 （ URP )。 那么， MRP 可被加和分解成 LRP 
和 URP ： 

MRP ( F ； F °) = yLRPCF ； F °) + yURP ( F ； F °) [5. 7] 

就数据而言，将调整中位数的相对数据以升序排序之后， LRP 和 UPR 可被 
计算 如下： 

O 

LRP ( F ； F °) = - (S (1/2 -P；) )-1 
n £=1 

URP ( F ； FO ) = -^-( ( Pl .-1/2) )-1 [5_7'] 

71 i=n/2+l 


我们用 “ re ldLst ”( J ann ，2008) 来得到这些极化测量。在比较2001年的黑人 
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收人和白人收人的过程中，我们发现， MRP 在两个尾部并不是均匀分布的。 
LRP =-0.3152, 为 URP=—0. 1447的 一 2倍。因此，黑人家庭户的下半部分 
具有比白人下半部分更窄的宽度。下半部分中大约 16%(LRP 的一半）的黑人 
朝中位数集中。黑人家庭户的上半部分与白人家庭户更相似，其中只有约7% 
的家庭户朝中位数集中。综合起来，我们可以看到，黑人的分布比白人的分布 
更加右偏。 

相对分布的趋势 

相对分布方法创建了相对数据，该数据提供了分析不平等的更大的灵活 
性。比如，我们很想知道，黑人一白人收人分布差异如何随着时间演变。我们 
是否看到黑人一白人收入差异在经历了 20世纪70年代的扩大之后，出现了一 
个停滞？我们可以用黑人一白人相对密度和顺序分解来提供图形考察，并可以 
用相对熵来了解整体分化，用 MRP 及其分解来了解相对极化。 


表 5. 5相对熵：1985—2001年黑人一白人收入分化趋势 


年份 

相对熵 

年份 

相对熵 

1985 

0. 184 

1993 

0. 170 

1987 

0.241 

1995 

0. 166 

1988 

0. 180 

1996 

0. 140 

1991 

0. 199 

2001 

0. 137 


资料 来源: SIPP。 


基于十分位上的相对比例，我们计算8个调查年份每一年的相对熵指数，结 
果显示在表 5. 5中。1987年出现了最大的黑人一白人收入分化，1996年和 
2001年分化最小。 

接下来，我们比较黑人和白人分布之间的极化。与表 5. 5中单一年份的说 
明一样，我们使用中位数调整，同时用 reldistCJann, 2008) 得到中位数、下端尾 
部和上端尾部的相对极化指数。因为该方法比较集中关注调整中位数后的形 
状差异，因此，相对极化概括了尺度改变和形状改变。相对极化提供了相对熵 
中未揭示的黑人和白人分布尾部之间差异的数量和方向的信息。结果见表 5. 6 
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和图 5. 6。最显著的模式是 MRP 和 LRP 随时间推移而波动，而 URP 相对保持 
不变。图 5. 6直观地显示了 URP 的稳定性和 LRP 的波动，这一波动影响着整 
体相对极化 MRP 的波动。 


表 S .6 中位数相对极化 （ MRP ) 及下部和上部 成分: 
1985—2001 年黑人一白人收入极化趋势 


年份 

MRP 

LRP 

URP 

1985 

—0. 2321 

—0.3112 

—0. 1529 

1987 

一 0. 2547 

—0. 3648 

—0. 1445 

1988 

-0. 2060 

-0. 2907 

-0. 1214 

1991 

-0. 2407 

-0. 3408 

-0. 1407 

1993 

-0. 2145 

-0. 3003 

—0. 1286 

1995 

-0.2195 

—0. 3217 

-0. 1173 

1996 

—0. 2429 

-0. 3708 

—0. 1150 

2001 

一 0. 2299 

—0. 3152 

-0. 1447 


注 ： MRP = 0.5(LRP + URP) 。 LRP: 下部相对极化 ; URP: 上部相对极化。 
资料 来源 : S1PP 。 



MRP - 0. 5XLRP - 0. 5 X URP 


图 5. 6 1985—2001 年黑人一白人收入中位数及下部和上部极化的变动趋势 

相对分布分解方法如何不同于第4章中所介绍的基尼分解等概要不平等测 
量分解呢？我们强调了由合并两个分布的相对分布方法所提供的许多机会。 
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相对分布方法在概括两个分布的分化和极化方面很灵活。这些量对横断面和 
时间趋势研究都很有用，它们提供了补充已有概要不平等测量的不平等替代测 
量。比如，更大的相对熵表明比较和参照组之间更大的不平等。极化指数提供 
了对下尾部和上尾部敏感的测量，而概要不平等测量只对某一尾部（或者底部 
或者顶部)敏感。 

以这些发现，我们就有能力回答本章开篇我们提出的那两个问题。1985年 
到2001年的17年间，黑人一白人收人分化的波动起伏，主要归因于黑人收人分 
布下半部分的波动。 


小结 


相对分布分解方法如何不同于第4章中所介绍的概要不平等测量？我们展 
示了由合并两个分布的相对分布方法所提供的机会。相对分布方法在将整体 
差异分解为位置及尺度和形状改变方面很灵活。相对熵不同于之前所讨论的 
泰尔指数和其他广义熵指数，主要是因为相对熵刻画了两个分布的分化特征。 
MRP 及其 LRP 和 URP 成分特别有用，因为它们在排除中位数影响的情况下, 
对两个分布的形状加以比较，并强调了两个尾部。我们已经使用人口子群体 
(黑人相对于白人)进行了举例说明。但是，相对分布方法的应用通常可以很广 
泛，而 MRP 尤其如此。我们可以直接将这些基于相对分布的方法用于空间比 
较，比如，美国内部跨区域的比较或者跨国比较，以及时间上的比较。 

到目前为止，本书中所有的说明性例子都将经验数据近似看成整个总体。 
样本变异会导致不精确的估计值。为了避免将随机干扰理解成真实模式，我们 
必须处理不平等测量的推断问题，这是下一章的主题。 



第 6 章 I 推断问题 


在许多研究中，研究者只能得到样本数据而不是整个总体。而且，全国性 
调查数据通过使用多阶段整群分层抽样等复杂抽样设计的调查来收集，因此， 
总体中的个体经常但并不总是具有不同的被抽取概率。因此，针对某一反应变 
量的不平等测量做推断，就会受到比在简单随机抽样情况下更复杂的抽样变异 
的影响。另外，由于几乎所有的不平等测量都是结果变量的非线性函数，因此， 
线性化方法被用来推导更复杂的标准误，尽管考虑了调查抽样设计。最后，当 
样本规模较小的时候，线性化方法及其渐近假定可能是有问题的，需要采用替 
代方法来量化抽样变异。这些问题将在本章中加以讨论。 

不平等测量，特别是基尼系数、泰尔指数和阿特金森族，在趋势研究 （比 如， 
比较不同时间上的收入不平等）、比较研究（比如，比较不同国家的收人不平等） 
和政策研究（比如，比较各种税收政策再分配的效果）中被广泛使用。当进行此 
类比较时，统计显著性就变成了一个经常被忽视的重要问题。本章将处理与不 
平等测量和相对分布测量有关的推断问题。 

宽泛地讲，有两种方法一渐近的和自举的——被用来处理不平等测量的 
推断。渐近法建立在抽样分布的正态渐近基础上。基于渐近理论的渐近标准 
误 ( ASE ) 和置信区间在小样本情况下可能是有偏的，而且这些估计值的小样本 
属性通常是未知的。自举法使用500到2000个从实际样本得到的自举法抽取 
样本来估计抽样分布。自举法推论统计量包括自举法标准误 ( BSE ) 和置信区 
间，可应用于相对较小的样本，因为它没有做渐近假定 （ Bmr ， 1994； Hall , 
1992)。假定两种方法采用简单随机抽样，因此，两者都需要进行修改以适用于 
复杂调査抽样设计的情形。 
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杜克罗斯和阿拉尔提出了选取某一方法的一般性原则 （Duclos &- Araar , 
2006)。当观测案例数较大并且概要不平等测量估计量的抽样分布趋于正态 
时，我们可以放心地使用渐近法，它会得到与自举法几乎相同的结果。但是，如 
果估计量的抽样分布远不是正态的，渐近法会得到有偏的标准误和置信区间。 

本章将渐近法和自举法两者引人单一分布的概要不平等测量或相对分布 
中来。这些方法可以考虑调查抽样设计。我们将使用 SIPP 中的收人和财富数 
据作为经验例子来说明。 

含调查设计效应的渐近方法 

杜克罗斯和阿拉尔的书提供了一个 Stata 程序，该程序在考虑调查抽样设 
计的情况下来估计基尼系数、阿特金森族、广义熵族、分位数比和份额以及它们 
的 ASE 和置信区间。将该方法应用于经验例子之前，我们对取自他们著作的一 
些基本原理加以回顾。 

根据杜克罗斯和阿拉尔的著作，按照大数定律和中心极限定理，有可能证 
明上面提到的大多数不平等测量都是一致且服从渐近正态分布的。一致性说 
的是，随着样本规模趋于无穷，估计量会接近于真实的总体参数。渐近正态性 
说的是，对于大样本而言，估计量的抽样分布是渐近正态的。两位作者使用一 
种标准的线性化方法来推导这些不平等测量的标准误。这一方法确保了一个 
给定的不平等测量的线性渐近具有一个近似正态的分布，其中，分布的均值由 
真实的总体参数近似地给岀，而方差可以根据数据一致地估计而得到。 

复杂调查抽样设计能够影响不平等测量的标准误的精度。美国的全国代 
表性样本通常使用多阶段整群分层抽样设计。集群——比如，城市统计区 
( MSA ) ——在其内部的总体元素之间比在集群之间更为异质。但是，层在层 
内比在层间更加同质。整群抽样相当于使用一个加权抽样方案来选取想要包 
含的集群，而分层抽样通常涉及包含的所有层。比如，对于一项收人的种族 
差异研究而言， MSA 可能根据黑人居民的百分比来分层，那些黑人比例较高 
的 MSA 可被过度抽样，因此，比实际情况下更多的黑人受访者被包含在最终 
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样本中。 

只选择某些集群会得到一个不如总体那么多样的样本，而且这是在估计不 
平等测量的方差中需要加以说明的。同样，随机选取层内的元素在本质上有别 
于简单随机抽样，而且这一抽样设计也必须加以说明。多阶段整群分层抽样设 
计有时候会导致总体元素之间不相等的入选概率。入选概率的倒数为抽样权 
重，表示一个样本元素所代表的总体元素的个数.不平等测量意在概括总体层 
次上的属性，但是如果未能考虑抽样权重，就只能对样本进行描述了。因此，抽 
样权重必须被用来对偏误进行修正。 

我们使用 SIPP 数据来举例说明复杂抽样设计。 SIPP 采用分层两阶段整 
群抽样设计。由于人口学和社会经济变量的多样化，层被通过对区域(东北部、 
中西部、南部和西部）内的小县城进行分组来构建得到。在整群抽样的第一阶 
段中.初级抽样单位 ( PSU ) 为集群（县、独立市和县群）。 PSU 的样本从县群的 
每一层中抽取，同时，所有的大县和独立市都被纳人。在第二阶段中，从每一个 
选中的 PSU 中选取家庭户。公用 SIPP 数据中的 PSU 和层变量为准测量，以避 
免识别岀小地理区域和小样本个体的可能。在公用 SIPP 数据中，对于 SIPP 
1991 年的数据，层的数量为 73 个, PSU 的数量为 144 个。对于 SIPP 2001 年的 
数据，对应的数字为 105 和 201。 分层整群抽样导致被选中的家庭具有不同的 
抽样权重。此外，并非所有被抽中的家庭户都愿意参与调查，同时，第一波中的 
那些参与者也并非都能被追踪到。无应答率和失访(退出）率也会影响选中家 
庭户的最终抽样权重。 

DASP 程序，即分布分析的 Stata 程序 （Duclos Araar , 2006)，可用来免 
费取得单一不平等测量和两个总体在一个不平等测量上的差异的渐近推断。 
DASP 能够很轻易地被安装到 Stata 中，它能够提供对大部分标准不平等测量 
的调查抽样设计进行解释的 ASE 。 

表 6. 1的第二部分给岀了收入不平等测量的估计值。其顶部呈现了未加权 
估计值及假定简单随机抽样下的标准误和置信区间，底部呈现了加权估计值及 
意在对顶部预料到的偏误进行修正的标准误和置信区间。比如，未加权的基尼 
为 0. 423,大于加权的基尼 (0. 422)。未加权估计值的向上偏误存在于所有中部 
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或顶部敏感的测量中。不过，未加权的底部敏感测量， P 10/ P 50、 GE —和 A 2 都 
是向下有偏的，而且此偏误要比中部或顶部敏感不平等测量中的偏误更大。 

既然假定了简单随机抽样，顶部的标准误估计值也将是倾向于有偏的。我 
们需要纳人与调查设计有关的信息，包括整群抽样信息 ( PSU ) 和分层抽样信息 
( STRATA )。 使用 DASP 中适合于该调查设计的渐近方法，表 6. 1的底部呈现 
了比顶部更大的标准误和更宽的置信区间估计。比如，简单随机抽样假定下的 
基尼系数的95%置信区间为 [0. 420, 0. 427]。抽样设计被考虑之后,95%置信 
区间变成了[0.417, 0.427]。抽样变异差异对中部敏感测量似乎更小,而对底 
部或顶部敏感测量似乎更大，尤其是 GE - i „ 


表 6. 1收入不平等测量的估计值和 推断: SIPP (2001 年) 


测 量 

估计值 

标准误 

95 %置信区间 

未考虑调查的未加权结果 





基尼 

0. 423 

0.002 

0. 420 

0. 427 

/>10/^50 

0.281 

0. 003 

0. 275 

0. 288 

/>90//?50 

2.510 

0.019 

2. 473 

2. 547 

GE-i 

3.512 

0. 766 

2.010 

5.014 

GE 0 

0. 349 

0. 004 

0. 342 

0. 356 

GE, 

0. 310 

0. 004 

0. 303 

0.317 

ge 2 

0. 405 

0. 009 

0. 388 

0. 422 

A(i/2) 

0. 149 

0.001 

0. 147 

0. 152 

A\ 

0.294 

0.002 

0.289 

0. 299 

A 2 

0. 875 

0. 024 

0.829 

0.922 

考虑调查的加权结果 





基尼 

0.422 

0. 003 

0.417 

0. 427 

plQ/p5Q 

0.287 

0. 004 

0. 280 

0. 294 

/ >90/ 户 50 

2. 494 

0.023 

2. 449 

2. 540 

GE-i 

3. 859 

0. 893 

2. 090 

5.629 

GE 0 

0.346 

0. 004 

0. 337 

0. 354 

GE, 

0. 308 

0. 005 

0. 299 

0.317 

ge 2 

0. 404 

0. 010 

0. 384 

0. 425 

-A(i/2) 

0. 148 

0. 002 

0. 145 

0.152 

Ai 

0. 292 

0. 003 

0. 286 

0. 298 

A 2 

0. 885 

0. 024 

0.839 

0. 932 


资料 来源: SIPP 。 





评估不平等 


545 


对不平等测量的兴趣并不仅限于单一总体的分析，我们也对总体之间的比 
较感兴趣。在比较两个总体的过程中，我们经常想对两个总体之间在某一不平 
等测量上的差异为0的零假设加以检验，这是 DASP 能够完成的一项任务。现 
在，我们来考虑对美国1991年和2001年之间的收入不平等进行比较的例子。 
表 6. 2给出了 1991年和2001年家庭户的收人及其差值 （2001 年的取值减去 
1991年的取值）、与表 6. 1中相同的一套不平等测量的点估计值、标准误、< 比 
值、/»值和95%置信区间。2001年的收人不平等显著地高于1991年的证据是 
较强的。尽管平均收人（以美元计算)从1991年的48065美元增加到2001年的 
51250美元，但人口下半部分的收人却停滞不前，正如^10/^50分位数比的不显 
著变化所表明的。相反，上半部分出现了不相称的增长 ：比值 / >90/ p 50 从 2. 29 
上升到 2. 49,且变化是显著的。这一分化导致所有其他的不平等测量在这10 
年间都出现了显著的增加。比如，底部敏感的 GE —从 1. 3741增加到 3. 8592, 
顶部敏感的从 0. 2677上升到 0. 4041，中部敏感的测量出现了更细微的增 
长，如基尼(从 0. 3823到 0. 4216)。 


表 6.2 检验收入不平等测量上的 差异: SIPP (1991 年和2001年) 


测 量 

估计值 

标准误 

t 

P>t 

95%置信区间 

基尼 _91 

0. 3823 

0. 0023 

164. 6 

0. 000 

0. 3776 

0. 3869 

基尼 _01 

0. 4216 

0. 0025 

169. 6 

0. 000 

0. 4167 

0. 4265 

差值 

0. 0393 

0. 0034 

11. 6 

0. 000 

0. 0326 

0. 0460 

/>10/户50一 91 

0. 2904 

0. 0051 

56.4 

0. 000 

0. 2801 

0. 3007 

/?10//>50_01 

0. 2865 

0. 0035 

81.5 

0. 000 

0. 2795 

0. 2935 

差值 

-0. 0039 

0. 0062 

— 0. 6 

0. 533 

—0. 0162 

0. 0084 

/)90//>50_91 

2. 2941 

0. 0222 

103.3 

0. 000 

2. 2498 

2. 3383 

p 90//)50_01 

2. 4943 

0. 0228 

109.5 

0. 000 

2. 4492 

2. 5395 

差值 

0. 2002 

0. 0318 

6.3 

0. 000 

0. 1375 

0. 2630 

GE - i _91 

1. 3741 

0. 3124 

4.4 

0. 000 

0. 7513 

1. 9969 

GE — 1 _01 

3. 8592 

0. 8925 

4.3 

0. 000 

2. 0896 

5. 6288 

差值 

2. 4851 

0. 9456 

2. 6 

0.010 

0. 6191 

4. 3511 

GE 0 _91 

0. 2851 

0. 0042 

67.7 

0. 000 

0. 2767 

0. 2935 

GE 0 _01 

0. 3457 

0. 0043 

80.4 

0. 000 

0. 3371 

0. 3542 

差值 

0. 0606 

0. 0060 

10. 1 

0. 000 

0. 0487 

0. 0725 
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续表 


测 量 

估计值 

标准误 

t 

P>t 

95 %置信区间 

GE, _91 

0. 2407 

0. 0031 

78.7 

0. 000 

0. 2346 

0. 2468 

GE, _01 

0. 3078 

0. 0045 

68.8 

0. 000 

0. 2989 

0. 3166 

差值 

0. 0671 

0. 0054 

12.4 

0. 000 

0. 0564 

0. 0778 

GE 2 _91 

0. 2677 

0. 0044 

61. 1 

0. 000 

0. 2590 

0. 2764 

GE 2 _01 

0. 4041 

0. 0104 

39. 0 

0. 000 

0. 3835 

0. 4246 

差值 

0. 1364 

0. 0112 

12. 1 

0. 000 

0. 1142 

0. 1586 

Ad/2)_91 

0. 1216 

0. 0015 

81.6 

0. 000 

0. 1186 

0. 1245 

•A( i /2) 一01 

0. 1482 

0. 0017 

85. 1 

0. 000 

0. 1447 

0. 1516 

差值 

0. 0266 

0. 0023 

11.6 

0. 000 

0. 0221 

0. 0311 

Al 91 

0. 2480 

0. 0032 

78.3 

0. 000 

0. 2417 

0. 2544 

AlOI 

0. 2923 

0. 0030 

96.0 

0. 000 

0. 2862 

0. 2983 

差值 

0. 0442 

0. 0044 

10. 1 

0. 000 

0. 0355 

0. 0529 

A 2 _91 

0. 7332 

0. 0445 

16.5 

0. 000 

0. 6445 

0. 8219 

a 2 _oi 

0. 8853 

0. 0235 

37.7 

0. 000 

0. 8387 

0. 9319 

差值 

0. 1521 

0. 0503 

3.0 

0. 003 

0. 0528 

0. 2513 


资料 来源: SIPP 。 


群体收入差异如何影响总的收人不平等呢？第4章中讨论过的加和分解原 
则表明，广义熵族满足这个原则。表 6. 3呈现了按种族群体的泰尔系数，即 Gf ：! 
的分解及其推断统计量。另外，我们只使用有关黑人和白人的数据，因此，总体 
泰尔指数的估计值与表 6. 3①中的不同。总泰尔为 0. 3052,组间成分是组间泰 
尔 0. 0081，解释了总量中的 2. 7%，而组内成分为 0. 2971，解释了总量中的 
97. 3%。组内成分为组泰尔的加权和，权重是总份额与组均值对总均值之比的 
乘积。就白人来看，此加权的组泰尔的贡献为 0. 2669( 总量的 87. 5%);就黑人 
来看，则为 0. 03% (总量的 9. 9%)。该表以绝对值和相对值两种形式提供了总 
的和分组别的泰尔指数、总份额、组均值对总均值之比以及加权分组别的贡献 
的标准误。所有这些统计量都显著地区别于0。泰尔指数，即参数0为1时的 


①原文此处误为“表 6. 2”。——译者注 
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广义熵测量，属于中部敏感的测量。随着0的上升，白人的贡献也在增加，而黑 
人的贡献则在下降。就 GE 2 而言，白人的相对贡献变成了 91. 7%，而黑人的则 
为 6. 4%。反方向而言，对于，白人的贡献更低，处在 71. 7%，而黑人的则更 
高，处在28%。 


表 6.3 按种族的收入泰尔指数 分解: SIPP (2001 年) 


组群 

测量 

总份额 

{mu_k/mu) 

绝对贡献 

相对贡献 

1. 白人 

0. 2949 

0. 8633 

1. 0483 

0. 2669 

0. 8746 


0. 0047 

0. 0025 

0. 0021 

0. 0044 

0. 0038 

2. 黑人 

0. 3175 

0. 1367 

0. 6950 

0. 0302 

0. 0988 


0. 0094 

0. 0025 

0. 0121 

0. 0013 

0. 0046 

组内 

— 

— 

— 

0. 2971 

0. 9734 

组间 

一 

— 

一 

0. 0081 

0. 0266 


— 

— 

— 

0. 0001 

— 

总和 

0. 3052 

1. 0000 

— 

0. 3052 

1. 0000 


0. 0045 

0. 0000 

— 

0. 0045 

0. 0000 


资料 来源: SIPP 。 


收人代表着家庭户的资源流动，而财富则反映了存量。美国的财富不平 
等在同一时期是如何演变的呢？我们使用 SIPP 财富数据来考察允许资产净 
值为负值的不平等测量在1991年与2001年之间的差异。基尼系数、基于分 
位数的测量和 G £ 2 ( 变异系数平方的一半）都能够处理负资产净值和零资产净 
值，结果呈现在表 6. 4中。首先，我们注意到，资产净值的基尼系数远远大于 
收人的基尼系数。此外，基尼从1991年的 0. 6944到2001年的 0. 7635,增加 
了 0.069。这一增量是显著的。 比值坤 5/ F 5 显著地下降，这表明中间50% 
的人口在财富上的分化。同样，比值 P 50/ P 90 也下降，意味着典型的美国家 
庭户当时比最富足的5%更穷。我们也来看看下半部分的份额与最高5%的 
份额的份额比。此份额比表明，家庭户财富相对于最高5%,增长得有多快。 
最后，通常与方差和变异系数等价的 GE 2 大大增加，它反映了顶部末尾的 
情况。 
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表 6.4 检验财富不平等测量估计值的 差异: S 1 PP ( 1991年和2001年) 


测量 

估计值 

标准误 

t 

P>t 

95 %置信区间 

基尼 _91 

0. 6944 

0. 0035 

197. 5640 

0. 0000 

0. 6874 

0. 7014 

基尼 _01 

0. 7635 

0. 0142 

53. 8138 

0. 0000 

0. 7354 

0. 7916 

差值 

0. 0691 

0. 0146 

4. 7260 

0. 0000 

0. 0402 

0. 0979 

p 25/ 户 75— 91 

0. 0378 

0. 0025 

15. 0647 

0. 0000 

0. 0328 

0. 0428 

p 25 //>75_01 

0. 0216 

0. 0017 

12. 9010 

0. 0000 

0. 0183 

0. 0250 

差值 

—0.0162 

0. 0030 

-5. 3537 

0. 0000 

—0. 0221 

—0. 0102 

户50//>90一 91 

0. 1014 

0. 0023 

44. 0190 

0. 0000 

0. 0968 

0. 1060 

pb 0 / p 90 _ 0 l 

0. 0840 

0. 0017 

49. 6032 

0. 0000 

0. 0807 

0. 0874 

差值 

—0. 0174 

0. 0029 

—6. 0757 

0. 0000 

—0. 0230 

-0.0117 

sb 50/ st 5_91 

0. 1244 

0. 0052 

23. 7494 

0. 0000 

0. 1140 

0. 1349 

sb 50/ st 5 一01 

0. 0449 

0. 0120 

3. 7496 

0. 0003 

0. 0212 

0. 0687 

差值 

—0. 0795 

0. 0131 

—6. 0798 

0. 0000 

_ 0. 1053 

一 0. 0537 

GE 2 _91 

1. 4758 

0. 0635 

23. 2430 

0. 0000 

1. 3492 

1. 6023 

ge 2 _01 

40. 9671 

30. 0551 

1. 3631 

0. 1758 

-18. 6265 

100. 5608 

差值 

39.4914 

30. 0551 

1. 3140 

0. 1917 

-19. 8211 

98. 8039 

资料 来源: SIPP 。 








表 6. 5按种族群体的财富不平等测量 分解: SIPP (2001 年） 


组群 

ge 2 

总份额 

均值比平方 

绝对贡献 

相对贡献 

1. 白人 

37. 3750 

0. 8629 

1. 

2553 

40. 4847 

0. 9982 


27. 1211 

0. 0025 

0. 0064 

29. 5457 

0. 0013 

2. 黑人 

3. 3032 

0. 1371 

0. 0586 

0. 0266 

0. 0007 


0. 4014 

0. 0025 

0. 0067 

0. 0059 

0. 0006 

组内 

一 

— 


— 

40. 5113 

0. 9989 

组间 

一 

一 


— 

0. 0456 

0. 0011 


— 

— 


— 

0. 0009 

—— 

总和 

40. 5569 

1. 0000 


— 

40. 5569 

1. 0000 


29. 5442 

0. 0000 


— 

29. 5442 

0. 0000 


资料 来源: SIPP 。 


我们以 G £：2 为例，进一步考察种族群体如何影响总财富不平等(见表 6. 5)。 
与针对家庭户收入的分解类似，我们只看黑人和白人的子群体。 GE 2 组内成分 
的权重不同于 G & (泰尔指数），因为我们使资产净值的组均值对总均值之比平 
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方。表 6. 5显示，白人资产净值的 Gf ： 2 远远大于黑人的情况。总 GE 2 中只有 
0. 1%受到了组间成分的影响，而其余 99. 9%源于组内成分，其中，白人种族群 
体的多样性贡献了总 G £ 2 的 99. 8%,而黑人种族群体的多样性实际上对总 
GE 2 并无贡献，因为 0. 07%并不显著地区别于0。 

使用表 6. 1到表 6. 5,我们已经示例性地说明了意识到样本并非总体及恰 
当地考虑复杂调查设计的重要性。调整调查设计的渐近方法得到恰当的推断 
统计量。 DASP 程序使对各种不平等测量调整调查设计的渐近方法变得更便 
利。对于小样本和基于相对分布的不平等测量，自举法会更恰当。下一节我们 
将介绍这一方法。并无此需要的读者可以跳到下一章。 


自举方法 


自从艾福荣及蒂鲍希拉尼推广自举方法以来 ( Efron , 1979； Efron &- Tib - 
shirani , 1993) ，它已被应用到诸多统计推断问题上。 ASE 建立在解析的线性渐 
近逼近基础上，而 BSE 则建立在强力计算重复抽样思路的基础之上。下面，我 
们先简单地介绍标准的自举法(更详细的内容见 Mooney Duval , 2003)。我 
们还将简单讨论考虑了调查设计的自举法 (Duclos Araar , 2006)。 


自举法基本原理 


以一个随机数种子开始，我们从规模为 〃的实 际数据样本中，以回置方式 
重复抽取规模为《(或 者〃 足够大时，一个小于〃的规模）的 B 个（比如，500至 
2000) 随机样本。每一个自举法样本都略微不同于实际样本，同时，各自之间也 
都略有不同，原因在于采用了回置抽样 ® —某些观测案例将在自举法样本中 
出现多次，而其他的将被忽略掉。此外，重要的是要注意，当执行重复抽样时， 


①也译为“重置抽样”、“重复抽样”或“有放回的抽样”等，是指从总体单位中抽取一个单位后, 
将其放回总体中.然后再抽取下一个单位.这种连续抽取样本的方法就被称做“回置抽样”。由此可 
见，回置抽样时，总体单位数在抽选过程中始终未减少，总体而言，各单位被抽中的可能性前后相同， 
而且各单位有被重复抽中的可能。——译者注 
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样本是独立获取的。所得的500到 2( X )0 个估计的不平等测量（比如，基尼)构成 
了一个分布，该分布近似于基尼估计量的抽样分布。如果想复制整个过程，相 
同的随机数种子必须被用来取得完全相同的抽样分布。自举法包含两个步骤 
的 B 次 操作： 

首先，以回置抽样方式从规模为》的样本中抽取一个规模为《的自举法样 
本。其次，使用这第一个自举法样本计算所关注的不平等测量，得到 B 自举法 
估计值，这些将被用来计算自举法推断统计量。 

为了取得 BSE ， 我们只需要计算自举法样本的标准差。我们经常使用 B = 
5⑻来生成 BSE ， 用 1. 96 BSE 可以计算围绕自举法均值的95%置信区间。 

接下来，我们放松估计值抽样分布的正态性假定。方法之一被称做“百分 
位数法”。如果我们有999次试验，并将估计的不平等测量（比如，基尼系数） 
从低到高加以排序，那么，95%置信区间就以第25个和第975个基尼系数为 
界。因为999个估计的基尼系数值都没有出界，因此，95 %置信区间也不会出 
界。我们用一个更大数量的重复样本（比如，1000至 2000) 来产生基于百分 
位数的置信区间。与替代方法相比，基于百分位数的置信区间表现优异 
( Burr ，1994) 0 

若干程序已被发展出来用于处理估计值的自举法分布也许有偏的可能性， 
包括偏误修正百分位数法以及偏误修正和加速法 （Efron Tibshirani , 1993； 
Mooney &- Duval , 1993)。 这里，我们对只涉及偏误修正因子的偏误修正百分 
位数法进行说明。此方法针对中位数上的偏误来调整区间的上下限 （Efron & 
Tibshirani , 1986)。 

首先，计算偏误修正因子是与比用实际数据得到的估计值更小的自举法估 
计值的比例相对应的标准正态分数。令？为以实际数据得到的不平等测量， 
/ * 为以自举法样本得到的不平等测量 ，而功 为偏误修正因子。我们定义功= 
< ?)]，其中，$是标准正态累积分布函数，①一 1 是其逆函数，也就 
是分位数(百分位数）函数。比如，小于实际估计值的自举法估计值的比例为 
0. 55,那么，对应的标准正态分数== 0. 125。 

其次，以这一偏误修正因子对被用来计算想要的置信区间界限的百分位数 
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进行 修正： cii- a = [ G - i ($( Za/2 +2功））， G - 1 ($( 2 wz +2 2 o ))], 其中， G - 1 
(• )为估计的不平等测量的分位数函数。我们基本上使用不同的百分位数来 
调整中位数偏误。比如，对于95%置信区间， z a/2 =—1. 96且幻1/ 2 = 1. 96。在 
中位数偏误的例子中，我们并未使用1000次重复中的第25个和第975个自举 
法估计值。我们通过加上偏误修正因子的2倍， 2 zo = 2 X 0. 125 = 0. 25,对 z 
分进行修正。因此，对于下限，偏误修正的 z 分变成了一 ： L 96 + 0. 25 =-1.17, 
而对于上限，则为 1. 96 + 0. 25 = 2. 21。对应的累积密度为 0. 044和 0. 986。因 
此，偏误修正百分位数法得到了以第44个自举法估计值为下限和第986个自举 
法估计值为上限的95%置信区间。 

此偏误修正方法假定自举法估计的标准误对所有的估计值都是不变的。当 
这一假定不成立时，就需要做进一步的调整。有兴趣的读者可参看艾福荣和蒂鲍 
希拉尼有关加速方法和偏误修正方法的内容 (Efron Tibshirani , 1993:186)。 

研究者可以使用乔利夫等人编写的 Stata 程序 “ ineqenr ” 来获得所选取不平 
等测量的自举法推断统计量 。 (Jolliffe &- Krushelnytsky ，1999)“ ineqerr ” 会给 
出基尼系数、泰尔指数和对数方差的基于正态性的、基于百分位数的和偏误修 
正的自举法置信区间。 

使用类似的程序，自举方法也可被用来检验两个总体之间在一个不平等测 
量上的差异是否显著地不同于0。根据从两个实际样本中再抽取的样本，我们 
估计了这两个样本之间在一个不平等上的 差异。 这些得到的差异估计与此差 
异抽样分布近似。参见杜克罗斯和阿拉尔 (Duclos & Araar , 2006) „ 


相对分布测量的自举法推断 


相对分布方法用于考察比对分布对参照分布所得到的整个相对分布，概要 
测量可根据此相对分布得到。因为这些概要测量估计量的渐近性质是未知的， 
所以我们利用自举法标准误和自举法置信区间的稳健性。 

这一程序可描述为4个步骤： 

第一，以回置抽样方式，从参照组样本中抽取一个自举法样本，同时也从比 
较组样本中抽取一个自举法样本。 



552 


社会科学中的数理基砌及应用 


第二，根据这两个第一轮的自举法样本，我们创建了自举法相对数据，根据 
这一数据，我们得到第一轮的概要测量。 

第三，将步骤1和2重复1000次。 

第四，所得到的概要测量的自举法分布的中部95%界定了这些概要测量的 
95%置信区间。前面讨论过的偏误修正方法可被应用于自举法置信区间^ 

在将黑人收入分布（比较组)与白人收人分布(参照）进行比较的过程中，我 
们用来自1000个自举法样本的相对熵估计值来获得推断统计量（见表 6. 6)。 
观测的相对熵为 0. 1375。基于百分位数的95%置信区间为 [0. 1204, 0. 1576], 而 
偏差修正的区间为 [0. 1187, 0.1546]。这些结果反映了黑人收人分布和白人收 
人分布之间的一个显著分化。具体而言，偏误修正的置信区间显示，相对熵的 
下限为 0. 1187,上限为 0. 1546。基于实际数据的中位数相对极化 （ MRP ) 被估 
计为 一0. 2248,其95%置信区间为 [ — 0. 2467, 一 0. 2028]，偏误修正的区间为 
[一 0.2475, — 0.2033]。这两种置信区间也由下部相对极化 （ LRP ) 和上部相对 
极化 ( URP ) 提供。这表明，黑人收人比白人收人更不极化，而且 LRP 对 MRP 
的解释量是 URP 的两倍①，因为 LRP 的上限(根据偏误修正的 CI ， 为 一 0 . 2717) 
远低于 URP 的下限（一 ()• 1686)。 


表 6.6 黑人收入和白人收入之间相对熵和相对极化的自举法 推断： SIPP (2001 年) 


测量 



自举法样本 


实际的样本估计值 

基于百分位数的 CI 

偏误修正的 CI 


第25个 

第975个 

第25个 

第975个 

RE 

0. 1375 

0. 1204 

0. 1576 

0. 1187 

0. 1546 

MRP 

-0. 2248 

—0. 2467 

—0. 2028 

-0. 2475 

—0. 2033 

LRP 

—0. 3095 

—0. 3497 

—0. 2745 

—0. 3462 

—0. 2717 

URP 

—0. 1401 

-0. 1656 

一 0. 1104 

-0. 1686 

一 0. 1130 


注 ：1. RP : 下部相对极化; MRP : 中位数相对极化; RE : 相 对熵； URP : 上部相对极化。自举法推断基于 
1000 个自举法样本 。 MRP = 0. 5 X LRP + 0. 5 X URP 。 

资料来源: SIPP 。 


①原文此处有错，变成了 LRP 与 LRP 自己的比较，这里将后一个 LRP 改正为 URP 。 ——译者注 
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含调查抽样设计的自举法 

当自举法抽样被用到复杂调查设计的情形中时，我们需要考虑该设计，以 
得到估计值的恰当标准误。复杂调查设计经常包含集群和根据一些特征所形 
成的层。与简单随机抽样相比，聚群会增加标准误，而分层则会减少标准误。 
复杂调查设计往往导致最终抽样单位具有不同的抽样权重。抽样权重被用来 
估计加权统计量，但它对调整这些加权统计量的标准误并无帮助。 

当使用调查数据时，我们应当对调查抽样设计保持警觉，并设法得到与调 
查设计有关的3个基本变量——初级抽样单位、层和抽样权重。因为 PSU 和层 
都是涉及地理编码的，因此，调查组织方为保护隐私的惯常做法是不提供实际 
的 PSU 和层。一些调查会提供与原始设计近似的准 PSU 和层， SIPP 数据就属 
于这种情形。根据调查的自举涉及从每一层抽取自举法样本的行为 （ Biewen ， 
2002； Biewen &- Jenkins , 2006； Duclos &- Araar , 2006 )。Stata 中的 
“ bsample ” 命令通过设定层和 PSU 的选项，允许对调查设计加以考虑。一个由 
杜克罗斯和阿拉尔编写的、用于进行分布分析的独立软件包 DAD ， 专门对一套 
不平等测量以复杂调查数据来执行自举法。本 • 詹恩编写的 Stata 程序 “ reld - 
ist ” 对相对极化及其分解的估计来自复杂调查数据的自举法标准误 （ Jann ， 
2006)。我们将在最后一章的真实例子中展示这些工具的使用方法。 


渐近方法和自举方法的表现 


正如上面提到的，杜克罗斯和阿拉尔建议，当样本规模较大且概要不平等 
测量估计量的抽样分布趋于正态时，我们可以放心地使用渐近方法 （Duclos 
Araar , 2006)。含混不清的问题是，多大的样本规模才足够大？另一个很不清 
楚的问题在于，不平等测量的不同类型之间的抽样变异，以及不平等测量对其 
敏感的分布的不同区域之间的抽样变异是否存在差异？为了给出这些问题的 
答案，我们进行蒙特卡洛实验，大致将 SIPP 2001年的收人数据集视为一个全部 
人口，我们可以对它计算出5个不平等测量的“真实” 值:基 尼系数（中部敏感 
的）、阿特金森指数八 1/2 (中部敏感的）、泰尔指数（中部敏感的）、 GE-i (底部敏 
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感的)和 GE 2 ( 顶部敏感的）。我们利用抽样过程的蒙特卡洛模拟来确定这两个 
置信区间技术的表现。我们重复地从总体中抽取样本，并将它们视为在收集样 
本数据时得到的样本，同时，对真实的不平等测量构建一个置信区间。通过重 
复这一过程，我们能够凭借正确实现以95%概率包含真值(包含概率）的能力及 
其长度和形状，来确定置信区间技术的表现。 

为了比较渐近方法和自举方法，我们考虑下面两种情形 :小样 本规模 （100) 
和大样本规模（1000)。实验目的是用3个标准来评估95%置信区间的 表现: 
(1)95 CI 包含真值的概率（95%被认为是一个好表 现）； （2)95 CI 的平均 长度; 
(3) 以上界对下界的比值(被期望接近于 1) 来描述的 CI 的形状。 

对于渐近方法，我们以无回置方式抽取任一规模的一个样本，用杜克罗斯 
和阿拉尔的 DASP 程序得到95%置信区间，并重复这一步骤10⑻次。基于这 
1000个置信区间,我们得到上述3个标准的概要值。对于自举方法，我们以回 
置方式抽取任一规模 (100 或 1000) 的一个样本，并重复使用自举抽样百分位数 
法和自举抽样偏误修正和加速 ( BCa ) 法1000次。为了确保一个公正的比较，我 
们对3种方法都使用相同的自举法抽取。抽取样本和建构置信区间这一步再次 
被重复1000次，然后，我们得到3个标准的概要值。 

比较这两种方法之间和各不平等测量之间的这些标准有以下 建议: 第一， 
如果样本规模为1000或更大，那么，渐近方法可被放心使用，因为渐近方法和自 
举方法的表现几乎完全一样，而自举方法需要密集的计算时间。第二，当样本 
规模比较小的时候，比如100,渐近方法和自举方法呈现出较差的表现。 BCa 方 
法只是略微对百分位数方法有所改进。因此，我们并不推荐将 BCa 方法作为常 
规做法。此外，并不存在与自举方法相联系的很大收益。在两种方法中，建立 
在估计量标准误的估计值基础上的置信区间比其应当呈现的情况更窄，这意味 
着，标准误估计值是向下有偏的。比如，在小样本情况下，基尼系数的 95 CI 包含 
概率约为90%。第三，不同类型的不平等测量之间的抽样变异存在巨大的差 
异，基尼系数更低(更精确）而阿特金森指数和广义熵测量则更高（更不精确）。 
抽样变异也会随着不平等测量在其上敏感的分布的区域而 变动： 中部敏感的为 
最低，顶部敏感的为次低，而底部敏感的则很高。具体而言，即使对于大样本 
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(1000), 包含真值的 CI 的百分比约为60%，而且，当样本规模为100时， 
这一包含概率很差(<20%)。因此•在对底部敏感的不平等测量的推断进行解 
释时，我们必须小心谨慎。[ 14 ] 


小结 


本章对不平等测量的推断进行了讨论。我们使用包含了复杂调查设计的 
DASP 程序,示例性地说明了渐近标准误、置信区间和一套不平等测量的假设检 
验的计算。我们也对以标准自举方法对基于相对分布的不平等测量进行推断 
做了说明。此外，我们也介绍了针对复杂调查数据的自举方法。我们突出了对 
不平等测量进行推断的重要性，因此能够以一定的把握度将其一般化到总 
体中。 

到现在为止，我们的关注点一直是整个人口或两个人口之间的不平等。不 
平等的来源经常不仅仅包括一个分组变量。两个群体之间不平等的模式会将 
分组变量的效应与其他因素的效应混淆起来。为了可信地描述在控制其他因 
素的情况下两个群体之间的差异，我们转向基于模型的方法，这是下一章的 
主题。 



第 7 章 I 分析不平等趋势 


不平等研究关注一个总体的属性的不均匀分布，比如收入。这一属性与某 
些总体特征有关，比如，种族、教育和年龄。两个时期之间，影响该属性边际分 
布的总体特征的构成和给定这些特征情况下该属性的条件分布可能有变化。 
因此，特征构成的变化和控制特征不变的情况下，属性分布的变化都会影响不 
平等测量的趋势。这里，我们介绍一种方法，它将不平等测量的变化分解为构 
成成分和条件成分 (Machado &• Mata , 2005)。请参见迪那多等人以及詹金斯 
和凡* 克尔曼著作中关于密度分解的相关主题 (DiNardo et al . ，1996； Jenkins 
&- Van Kerm , 2005)。 

请考虑一个简单的情形，即属性是收人，特征是种族，其中，黑人是少数而 
白人是多数。收人不平等随时间推移而出现的整体变化源于两个不同的成 
分——种族构成上的变化和给定种族情况下，收人的条件分布上的变化。这两 
个成分上变化的结合可以在3个不同的方面，对变化中的不平等产生影 响：第 
一，黑人一白人收人差距的增大且更大的黑人比例毫无疑问将会增加不 平等； 
第二，黑人一白人收入差距的减小且更小的黑人比例毫无疑问将会减少不平 
等; 第三，黑人一白人收人差距的增大(减小)且更小（更大）的黑人比例将导致 
不平等出现一个整体变化。因此,重要的是区分每一个来源的贡献。为此，我 
们使用一种反事实分解方法进行分析 (Machado Mata , 2005)。 

反事实方法的关键要素是，创建一个真实世界中并不存在的反事实 分布: 
在给定另一时期的协变量的情况下，一个时期的条件反应分布。在介绍此方法 
之前，我们将条件分布定义为给定协变量情况下，反应变量的分布，将联合分布 
定义为反应变量和协变量共同的分布，而将边缘分布定义为不考虑协变量情况 
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下的非条件分布。边缘分布可以通过对协变量所有取值上的联合概率质量（密 
度）函数求和(更一般而言，求积分)得到。这一根据联合分布得到边缘分布的 
过程被称为“边缘化”。 

令^为家庭户收人(略去了家庭户的下标），并令 I 为一个协变量，它可以 
是连续的（比如，能力)或离散的（比如，种族)。我们用 G 来表示/时: r 的构成， 
用 C ,) 来表示力的边缘分布。请注意，这是个实际分布而不是反事实的。 
当我们考虑不同时间5时的协变量的构成并使用 Z 时^的条件分布时，我们就 
得到了一个反事实的边缘分布，将其记为^’(災； C s )。 概要不平等测量/上从 
时间 1 到时间2的变化由 A / = / 2 - /i = /[ F (3；2 ; C 2 )] — HF ( yi ； Ci )] ①给 
出。通过引人一个反事实边缘分布，我们从代数上可以将这一变化表达 如下： 

Al = {/ [ F ( y 2 ; Cz )] — / [ F (^2 ; Ci 〉]} + { / [ F ( jy 2 ； Ci )] — /[ F (^ i ; C ])]} 

[7. 1] 

其中，第一项 lLF ( y 2 ; C 2 )]-/[ F ( 3 ； 2 ； CD ] 反映了在固定条件分布的情 
况下，协变量构成变化的 贡献； IlF ( y 2 ; Ci )]-/[ F (^ i ; C !)] 反映了在给定协 
变量，即固定构成的情况下，条件反应分布上变化的贡献。 

在方程 7. 1中，反事实不平等固定了时间1处的协变量构成和时间2处的 
条件反应分布 Ci ) 0 一个相反的顺序是，固定了时间2处的协变量构成 
和时间1处的条件反应分布 Fbi ; C 2 )。 分解方程变成 {/[ F (3 U ; C 2 )] — 
/ [ F (^ i ; Ci )]} + {7[ F ( jy 2 ; C2 )] — / [ F (^ i ; C2 )]} 。两种 顺序之间的结构也许 
不同。我们可以取它们的平均值作为最终的分解。 

反事实分布在1为取值为0或1的二分变量的特殊情况下很容易理解。在 
这一情形中，在任一给定的时期《中，属性^只有两个条件分布需要考虑，即 
J ： = 0时: y 的条件分布和 J ： = 1时: y 的条件分布。我们用/< (: y |0) 和// (: y | 1) 来 
表示 f 时 : r = 0或 1 = 1的情况下，^条件概率密度函数或概率质量函数 
( PMF )， 用 q (0) 和 q (1) 分别表示 : r = 0和 _r = 1时的人口比例。那么，: y 在/ 


①原文此处多了两个左括号，已删除。——泽者注 
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时的边缘概率密度函数(非反事实的） 为: 


ftiy I 0) c ,(0)+/,(>. I l ) o ( l ) 


它具有两个条件分布的加权平均值的形式。然而，当我们基于不同时间 s 处的 
(协变量)构成来 构建？ 时的反事实分布时，我们使用相同的条件分布和一个不 
同时间上的比例,分别以 c . 5 (0) 和 ( 1 ) 替换人口比例 o (0) 和 c , ( 1 ) ， 得到： 

f t (y I 0 ) c s ( 0 )+/,( 3 / I l ) c 5 ( l ) 

为了用统计软件进行计算，将基于此反事实分布的不平等测量的计算当做 
通过使用包含反事实抽样权重的不平等测量而得到的是有帮助的。定义两个 
权重 w (0) = c ,(0)/ c ,(0) 和 w ( l ) = c s ( l )/ o ( l ), 我们可以重新将？时的反事 
实表 达为： 

= ftCy I 0) c t (0) w (0) +/i (: y I l ) c ，（ l ) w ( l ) 

它基本上是/时的一个加权边缘分布。比如，1991年时 G 时），有2285名黑人 
和15369名白人被抽中作为样本个体，而2001年时 （《 时），有3403名黑人和 
20182名白人被抽中作为样本个体。对于顺序1的反事实， c s ( l ) = 0. 1443且 
0(1) = 0. 1296。然后，权重被计算为 w ( l ) = 0. 1296/0. 1443 = 0. 8897, w (0) 
= 0. 8704/0. 8557 = 1. 0076。对于顺序2的反事实，权重被计算为 w ( l ) = 
0. 1443/0. 1296 = 1. 1134, w (0) = 0. 8557/0. 8704 = 0. 9831。这些权重在计算 
不平等测量的过程中，应被处理成分析性权重。 [ is ] 

这种二分变量的情形可被推广至多类别的情形。设想有 K 个类别，因此 _r 
从1，…， K 中取值。第々个类别的人口比例被记为 rGfe )。 每个类别的权 重为： 


我们可以直接用这些权重来计算加权不平等测量，并以 DASP 程序来检验 
它们差异的显著性。以这种方式，反事实分解可被应用于任何概要不平等测 
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量。表 7.1 给出了基尼系数 G 、 泰尔指数： T 和广义熵 Gf ： 2 。 我们对两种反事实 
排序之间的成分求平均值，在本例中，两者相似。结果表明，种族既定情况下的 
条件收人分布对整体不平等的压倒性影响 （97. 4%— 97. 9%)在这10年间有所 
变化。 

在我们的例子中，种族既定情况下的条件收人分布与给定教育情况下的条 
件收入分布混淆在一起，仅仅根据种族来进行的简单分析具有误导性。通常， 
我们会引人多类别和连续协变量来更好地解释反应变量。当存在多个分类变 
量或恰好一个协变量为连续变量时，上述方法并不适用。要在这些更复杂的情 
形中，得到与上面我们对单一分类协变量所做的分析类似的趋势分析.需要引 
入一种基于模型的分解，我们在模型中以一些协变量来表达反应变量的分布。 
我们现在转向一种基于模型的分解方法。 


表 7.1 收入不平等的非基于模型的 分解: S1PP(2001 年) 


分 解 

G 

T 

Ai /2 

1991 年实 际的: F(：y 1; CD 

0. 381 

0.240 

0. 121 

2001 年实 际的： F(：y 2; C 2 ) 

0. 422 

0. 307 

0. 148 

整体变化 

0. 041 

0. 067 

0. 027 

反事实顺序 l ： F ( y z ； CO 

构成成分 

0.001 

0.001 

0. 001 

条件成分 

0. 040 

0. 066 

0. 027 

反事实顺序 2:5X3/, ; C 2 ) 

构成成分 

0.001 

0. 002 

0. 001 

条件成分 

0. 039 

0. 066 

0.026 

反事实顺序1和2的平均 

构成成分 

0.001 

0.001 

0. 001 

条件成分 

0. 040 

0. 066 

0. 026 

百分比贡献 

构成成分 

2.5 

2.1 

2.6 

条件成分 

97. 5 

97.9 

97. 4 


资料来源: SIPP 。 


对两个时期的工资变化进行分析的奥扎卡一布林德回归分解方法，一直被 
广泛使用 （DiNardo et al . ，1996; Juhn et al . , 1993； Oaxaca , 1973)。 基于条件 
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均值模型的线性回归模型，将工资的时间变化分解成一个反映协变量效应变化 
的成分和一个反映协变量构成变化的成分。但是，在拟合条件均值模型时，形 
状改变被吸收到残差中。为了以条件均值和条件形状来充分刻画条件分布的 
特征，马沙杜 ( Machado ) 和玛塔 ( Mata ) ( 2005 ) 使用分位数回归，将条件平均工 
资扩展为条件分位数工资 (Machado & Mate , 2005)。然后，估计的分位数回归 
( QR ) 系数与协变量的分解一并用于构建基于模型的、实际和反事实的边缘工 
资分布。将基于模型的实际边缘分布和反事实的边缘分布进行比较,就得到了 
与构成成分和条件分布成分有关的结论。马沙杜和玛塔的分布方法为对所有 
不平等测量进行基于模型的分解提供了便利。 

作为一个例子，我们将前面根据单个分类协变量的分析扩展到协变量向量 
中，包括种族、教育、年龄和常数项。[ 16 ]自此以后，符号 A 将被用来指代这样的 
一个协变量向量。分别针对每一时期《的分位数回归模型 （ QRM ) 可被表达如 
下 （Hao Naiman , 2007) : 

yt = pfx ， + ef 

这里， 0< f <1 表示人口的累积比例。那么，第^个条件分位数为每一时间上 
给定 I 的情况下的 函数： 

Of (-yt I 

t 时的第 f 个条件分位数以分位数别、时间别参数卩 f 和协变量^的取值来 
进行估计。 

基于模型的分解方法将收入不平等从时间1到时间2的整体变化分解成 
协变量的构成和给定协变量情况下，收人的条件分布。我们通过基于估计的 
QR 系数 I 和所有协变量 G 的实际分布的边缘化，来构造基于模型的边缘 
分布： 


F<iy t I C t ) = (p t ； C t ){t = 1 , 2) 

反事实边缘分布被定义 如下： 

F(y c I 吾 ；；0 = (1;。5)(,= 1，2，5=1，2且艺尹5) 
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顾名思义，反事实分布表示，如果 s 时的协变量构成起作用，那么，/时将会 
盛行何种收人分布。 

根据构建的实际边缘分布，我们可以估计任一不平等测量，记为 
C ,)。 同样，根据构建的反事实边缘分布，我们可以估计对应的测量，记为？ 

c s )。 通过比较这些测量，我们得到了一个两成分 分解： 

/\ /\ /\ 

A / = I 2 — I \ 

= 1(^2； C 2 )-/( pi ; Cl ) [ 7 . 2 ] 

= { /( p 2 ； C2 ) — / ( P 2 ； Cl )} + {/( P2 ； Cl ) — /( Pi ; Cl )} 

在这里，估计的不平等差异被区分成两个差值项。第一个差值项固定了时 
间2处的系数，但允许协变量构成在两个时间之间变动，因此反映了由所有协变 
量构成上的变化所导致的整体不平等测量的变化。第二个差值项固定了时间1 
处的协变量构成，但允许系数从时间1到时间2发生变化，因此，反映了由系数 
上的变化所导致的整体不平等的变化。 

方程 7. 2中的不平等测量建立在基于模型的边缘分布的基础之上。对大量 
(但小于样本规模)分位数进行建模，有助于刻画分布的特征，但并不会再现分 
布。因此，我们需要同时使用图形方法和数值方法来描绘观测的边缘和建构的 
边缘之间的差异。给出一个图形展示和估计出整体不平等测量中未被解释的 
变异是有 益的： 

/= / + e 

下面，我们对用来获得基于模型的（程序 A ) 和基于反事实的（程序 B ) 边缘 
样本的经验程序进行逐步描述。两个程序都基于以下思路，从它们对应的边缘 
分布中得到近似 样本: 对于从 (0, 1) 中随机选取的分位数值，我们从一个时期抽 
取了一行协变量数据，并将该行插入对相同时期或其他时期拟合得到的分位数 
回归模型中。所得到的反应变量值将具有正确的边缘分布。 

程序 A 包含以下步骤，以逼近每一时间 f 基于模型的边缘分布：（1)从均匀 
分布1/(0, 1) 中随机地选取一个 (7;(2) 使用完整的《时数据来估计第 U 个分位 
数 回归； （3) 从 z 时数据中选取一个规模为40的自举法样本，并根据分位数回归 
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模型估计值得到40个预 测值; （4) 根据所选取的各行协变量 x , 和分位数回归系 
数成，计算第[/个条件分位数; （5) 将步骤 (1) 到步骤 (4) 重复500 次; （6) 将步骤 
(5) 中得到的值 (500 X 40 = 20000) 作为从基于模型的3^的边缘分布中抽取的 
一个随机样本。 

程序 B 包含以下步骤，以逼近基于模型的反事实边缘分布： （ 1 ) 根据前面随 
机抽取时间1处的各行数据 & =1 和估计的时间2处的分位数回归系数$, =2 , 
计算条件分位数，以建构一个从反事实边缘分布 x,= i) 中抽取的样 
本; （2) 通过使用随机抽取的时间2处的各行数据和估计的时间1处的分 
位数回归系数^=1，能够建立一个倒序的反事实边缘，以建构一个从反事实边 
缘分布 ( ^=1；心=2)中抽取的样本。 

我们使用1991年和2001年的 SIPP 收人数据，对不平等测量基于模型的 
分解方法进行了举例说明。家庭户收入的分位数回归模型中的协变量包括种 
族(黑人相对于白人）、教育（大学教育相对于非大学教育）和生命周期（年龄 
和年龄平方）。我们得到了 1991年和2001年基于模型的边缘分布尹 ( m , 
G) 和 F ( y 2 , C 2 ) 0 我们首先来评价模拟的边缘分布在多大程度上与观测的 
边缘分布吻合。图示很有帮助（见图 7. 1)。对这两年而言，基于模型的核密 
度曲线大大保持了观测核密度曲线的位置、尺度和形状。相较观测曲线的顶 
峰，1991年基于模型的曲线在其顶峰处略微向右边移动了一点，这反映了两 
者的细微差异。2001年基于模型的曲线几乎完全与观测曲线相同。将表 7.1 
和表 7. 2的前三行加以比较，我们发现，1991年基于模型的不平等实际上比 
观测的不平等更低，这导致基于模拟数据的不平等出现了比观测数据更大的 
整体变化。 

在模拟了两种顺序 F ( y 2 , CD 和 F ( yi , C 2 ) 的情况下基于模型的反事实边 
缘分布后，我们得到了 4个模拟的边缘分布，根据这些分布，我们可以计算不平 
等测量并进行分解分析。我们呈现了基尼系数 G、 泰尔指数丁和阿特金森 A 1/2 
的结果。为了对趋势的显著性进行检验，我们使用了渐近标准误。 
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观测的 ——基于模型的 


( a ) 核密度观测 
核=伊氏颗粒带宽 = 4. 0222 



——观测的 ——基于模型的 

( b ) 核密度观测 
核=伊氏颗粒带宽 = 4. 0222 


图 7. 丨观测的对基于模型的收入边缘 分布： 1991年和2001年的 SIPP 数据 


表 7.2 基于模型的收入不平等 分解: SIPP ( 1991年和2001年) 


分 解 

G 

T 

■ Al /2 

1991年实 际的： 爹(: y 1; Q ) 

0. 362 

0.215 

0. Ill 

2001 年实 际的： P •(: y 2; C 2 ) 

0. 422 

0. 305 

0. 147 

整体变化 

0. 059** 

0. 090** 

0. 036** 

反事实顺序 l ： F ( y 2 ； C ,) 




构成成分 

0. 004 

0. 008 

0. 003 

条件成分 

0. 056** 

0. 083“ 

0. 033** 

反事实顺序2:安(: y 1; C 2 ) 
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续表 


分 解 

G 

丁 

Aj/2 

构成成分 

0. 003 

0. 004 

0. 002 

条件成分 

0. 056** 

0. 086** 

0. 034 " 

反事实顺序1和2的平均 

构成成分 

0. 004 

0. 006 

0. 003 

条件成分 

0. 056** 

0. 084** 

0. 034 “ 

百分比贡献 

构成成分 

6.0 

6.7 

7.5 

条件成分 

94.0** 

93. 3* # 

92.5** 


注: 分位数回归模型纳入了四个协变量 :种族 (黑人和白人）、教育(大学和非大学）、年龄和年龄平方。 

** 表示 _ P <0. 01。 

资料 来源: SIPP „ 


这10年间，以这3个不平等测量测得的收入不平等的增加统计上显著（见 
表 7. 2顶部的3行）。如果分位数回归模型被正确地设定[ 17 ]，那么此分解表 
明，协变量(种族、教育和生命周期）上的构成变化并未显著地对这3个不平等测 
量中的任意一个的整体变化产生影响。恰恰是条件分布（反映了收人的分类机 
制），几乎完全解释了日益增加的收人不平等。 

小结 

本章介绍了将两个时点之间不平等的变化分解成协变量的构成变化和给 
定协变量情况下，反应变量条件分布的变化的方法。适用于一个分类变量的方 
法属于一种再加权方法，适用于一个连续协变量或多个协变量的方法属于一种 
使用分位数回归的基于模型的方法。这一趋势分解方法提高了我们对不平等 
随时间变化的来源进行分析的能力，并得到对社会机制更深刻的认识。 F —章 
将应用本书所介绍的大部分分析工具，对1991年和2001年的收人和财富的不 
平等进行考察。 





第 8 章 I 一个说明性的应用 


美国收入和财富的不平等 (1991 一 2001年） 

本章使用 SIPP 数据，提供了一个对美国1991年和2001年家庭户收入和财 
富的不平等进行考察的真实例子。它是对前面各章所介绍工具的一次简要应 
用。我们的目的在于确定整个人口和不同社会群体的收人和财富不平等模式， 
以及这些模式在这10年间如何变化。由于收入和财富在家庭户内被共享，因 
此，我们以家庭户为分析单位。我们岀于理论和方法论的目的来考察收人和财 
富。理论上来说，家庭户资源可被看成由收人所反映的流量和由财富所反映的 
存量。收人和财富之间的关系较为复杂。具体而言，投资收人和储蓄为影响这 
一关系的因素的例子。因此，同时对收人和财富的不平等进行考察，可以提供 
更完整的家庭户资源不平等的图景。方法论上来说，像收入研究文献中所做的 
那样，我们应用大部分工具对收人进行考察。在收人的例子中，我们关注正的 
收人取值,因为负收入和零收人家庭户的比例较小。但是，考察财富不平等需 
要一套不同的工具，因为资产净值（总资产减总负债）为负值和零值的比例较 
大。收人和财富之间的对比提醒我们，恰当工具的选择取决于所讨论的现象。 
SIPP 同时收集了有关收人和财富的详细信息，这使它成为适合本研究的一个恰 
当数据来源。 SIPP 使用多阶段整群分层抽样设计，同时被选人样本的家庭户具 
有不同的抽样权重。本例的分析考虑了抽样权重和调查抽样设计。我们用 
Stata 中的用户编写程序 ineqdeco 和 ineqdecO ( Jenkins ， 1999)、 glcurve(Van 
Kerm & Jenkins , 2001)、 reldist ( Jann , 2008) 和 DASPCDuclos Araar ，2006) 
(见附表 A 3) 来完成分析。 
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描述性统计 

表 8. 1给出了分析中所用到变量的加权描述性统计。年收人通过将1991 
年和2001年中的月家庭户总收人加总得到。我们只对取正数值的年收人进行 
分析，因此，排除了 1991年的53个(0_ 25%)零收人家庭户、838个 (4. 02%)收 
人缺失家庭户（没有负数收人的家庭户）以及2001年的4个 (0. 01%)负数收人 
家庭户和100个 (0. 35%)零收入家庭户（没有收人缺失的家庭户）。由于这些非 
正数值收人的家庭户所占的比例相对较小，所以，删除它们只会最小地影响收 
人不平等模式。相比而言，1991年时，1751个 （8. 4%)家庭户的资产净值为负 
数，916个 （4. 4%)家庭户的资产净值为0。2001年时，相应的数字为3546 
(12. 9%)和 1158(4. 2%)，我们无法在不影响不平等模式的情况下，忽略总资产 
净值分布的这些部分。收人和资产净值都以2001年不变的美元来表示，因此， 
它们在时间上是可以被比较的。表 8. 1第一行显示，收人和资产净值的均值从 
1991年到2001年一直在增加。 

社会结构在决定一个家庭户以收人和财富形式来表现的位置中起着重要 
作用。基于社会分层理论，我们找出了 6个社会分组变量 :种族 或民族（白人、黑 
人、西班牙裔、其他）、年龄组(年龄在45岁以上的户主对年轻户主）、受教育群体 
(高中以下、高中、大学肄业和大学或以上）、家庭户类型（已婚无子女、已婚有子 
女单身母亲、单身男子、单身女子和其他）、区域(东北部、中西部、南部和西部） 
以及家庭户环境(城市区或非城市区）。表 8. 1中的“比例”一列表明，这些社会 
群体的人口比例从1991年到2001年有所变化。我们看到，少数种族群体、高龄 
群体、高教育群体、未婚家庭户类型、南部居民和城市区居民在增加。我们随后 
会讨论社会分组的这些构成变化是否会对收人和财富不平等的变化产生影响， 
并关注这些影响的程度。 

“平均收人”列和“平均资产净值”列给出了每一个社会群体在1991年和 
2001年的平均数值。尽管除了 3个群体之外，其他群体在这10年间，收入和资 
产净值有所增加，但似乎优势群体获益更多，包括白人、年长者、受最高教育者、 
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已婚家庭户类型、单身男子家庭户和城市区居民。除了受最高教育者之外，所有 
教育群体的平均收人都随时间而下降。无高中文凭的那些家庭户的平均资产净 
值出现了一个较大差额的下降，而受过高中教育和大学肄业的那些家庭户则呈现 
出一个少量的上升。相比而言，大学和高等教育在这10年期间导致了资产净值的 
最大提高。同时考察收人和资产净值会得到有关家庭户资源的更多洞见。 

尽管这些描述性统计是有益的，但它们并没有就整个人口的不平等给出一 
个明确的判断，因此，我们利用图形展示和概要不平等测量来考察观测的不平 
等模式。 


表 8. 1总的和按社会群体划分的收入和财富的加权描述 统计: SIPP (1991 年和2001年) 




1991 



2001 


变量 

比例 

平均收入 
(美元） 

平均资产净值 
(美元） 

比例 

平均收人 
(美元） 

平均资产净值 
(美元） 

整体 

1. 00 

47908 

118468 

1. 00 

51040 

173993 

种族/民族 

白人 

0.80 

50609 

134857 

0. 75 

54168 

210377 

黑人 

0. 10 

32190 

35391 

0. 12 

35797 

45472 

西班牙裔 

0. 07 

37144 

49368 

0. 09 

40998 

57905 

其他种族 

0. 03 

52660 

120371 

0. 04 

61419 

151915 

年龄组 

年龄 <45 

0. 49 

49155 

61968 

0.45 

52687 

83292 

年龄 >45 

0.51 

46717 

173087 

0. 55 

49699 

247818 

教育群体 

高中以下 

0. 23 

28728 

75755 

0. 14 

26541 

57946 

高中 

0. 35 

43406 

98923 

0. 30 

40387 

114691 . 

大学肄业 

0. 20 

50956 

114462 

0. 30 

48277 

140135 

大学或以上 

0. 22 

72514 

199006 

0.26 

78964 

345826 

家庭户类型 

已婚无子女 

0. 23 

54859 

196067 

0. 23 

59280 

282636 

已婚有子女 

0. 33 

63561 

123768 

0. 28 

72490 

207784 

单身母亲 

0. 10 

31483 

47476 

0. 11 

32983 

50835 

单身男子 

0. 10 

33560 

75756 

0. 11 

34695 

149631 

单身女子 

0. 15 

23615 

87771 

0. 15 

23726 

112522 

其他 

0. 09 

48347 

85923 

0. 11 

50916 

91618 
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续表 


变量 


1991 



2001 


比例 

平均收人 
(美元） 

平均资产净值 
(美元） 

比例 

平均收入 
(美元） 

平均资产净值 
(美元） 

区域 







东北部 

0. 20 

51773 

144972 

0. 19 

55651 

185108 

中西部 

0. 26 

47149 

108245 

0. 23 

51267 

154291 

南部 

0. 34 

42949 

93983 

0. 37 

46314 

140224 

西部 

0. 20 

53192 

145834 

0.21 

54834 

243909 

城市区 







是 

0. 74 

51041 

123957 

0. 77 

54102 

190311 

否 

0. 26 

39458 

102839 

0. 23 

40761 

119213 

连续型协变量 







年龄 

48.00 



49. 00 



受教育年数 

12.72 



13. 14 



家庭户规模 

2. 39 



2. 30 



样本量 N 

20838 



27398 




资料 来源: SIPP 。 


观测的收人和财富的不平等 

图形展示有助于直观地显示整个分布。图 8. 1中左侧的3幅图提供了年收 
人的分位数函数、洛伦兹曲线和广义洛伦兹曲线，右侧的3幅图提供了资产净值 
的同一组图形。由 Stata 中的 “ pctile ” 创建的分位数函数显示，收入和资产净值 
的2001年曲线从 p 70 及以上开始偏离相应的1991年曲线。资产净值上的偏离 
大于收人的情况。这意味着，时间上的变化被集中在此分布的上部1/3。 

使用詹金斯和凡 • 克尔曼编写的 “ glcurve ” 程序 （Jenkins Van Kerm , 
2004)，我们得到了 1991年和2001年的洛伦兹曲线和广义洛伦兹曲线。洛伦兹 
曲线以反应变量均值进行了标准化，从而排除了尺度改变。因此，我们用洛伦 
兹曲线来对这两年的分布之间的位置移动和形状改变进行比较。引起我们注 
意的第一件事是，资产净值的洛伦兹曲线和完全平等线之间的面积远远大于收 
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入的情况，这表明，财富上的不平等比收人上的不平等更严重，这与文献中所提 
到的一致。第二，我们看到，收人和资产净值的2001年洛伦兹曲线都处在1991 
年相应的洛伦兹曲线下方，这意味着，2001年的收人或资产净值洛伦兹占优于 
1991年的收人或资产净值。我们以底部、中部和顶部敏感的不平等测量 
(GE-20 , GEi 和 G£ 2 o, 这里未显示结果）对1991年和2001年的洛伦兹占优做 
了一个正式检验，证明2001年收人分布洛伦兹占优于1991年收人分布。不过， 
对资产净值做此类正式检验并不那么简单直接，因为底部敏感的不平等测量并 
不能被用于资产净值的负数值。我们对正数值部分的差异使用和 GE 20 , 
证明2001年资产净值分布的正数值部分占优于1991年的相应情况。 

收入 资产净值 


0 0.10.20.30.40.50.60.70.80.9 1 0 0.10.20.30.40.50.60.70.80.9 1 


P 

P 

-1991 - 2001 

——1991 ——2001 

( a ) 分位数函数 




累积人口比例 


1991 ——2001 ——完全平等 



累积人口比例 

——1991 ~——2001 二 -- 完全平等 





50 

2 
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( b ) 洛伦兹曲线 
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累积人口比例 累积人口比例 









( C ) 广义洛伦兹曲线 

图 8. 1加权的收入和财富分布的图形展示 :分位 数函数、洛伦兹曲线和广义洛伦兹曲线 

广义洛伦兹曲线通过将洛伦兹曲线乘以平均收人或财富而得到。 J 轴的重 
新尺度化提醒我们,尽管收入和财富的不平等从1991年到2001年有所增加，但 
因收人和财富而带来的福利在同时期却有所改善。 

除了图形展示，还可以计算精确的概要不平等测量。我’们挑选一套能够提 
供补充信息来形成更完整的不平等图景的测 M。 我们使用杜克罗斯和阿拉尔 
编写的 DASP 程序来得到 1991 年和 2001 年时加权的收人和财富的不平等测 
量，也可以对收人和财富分别使用詹金斯编写的 “ineqdeco” 和 “ineqdecO” 作为替 
代 (Jenkins， 1999)。 每一年的结果以及它们的绝对和相对差异呈现在表 8. 2 
中，顶部为收入的情况，底部为资产净值的情况。 

我们先考察收入不平等。从分位数比开始，因为它具有计算简单且易于解 
释的 优点。 W 0//>50( 第十个百分位数与中位数之比)描述了分布下半部的大部 
分，而 /)90//»50 则描述了上半部的大部分。下降的 p \0/ p ^>0 和上升的沖 0/ p 50 
共同反映了收入不平等的日益加重。收入上众数处敏感的基尼系数的增加证 
实了分布的中部存在更大的收人不平等。我们用到了广义熵敏感参数的 4 个取 
值（一 1、0、1和2)。随着每一个参数的取值的增大，敏感性从分布的底部移到 
了顶部。全部 4 个广义熵测量从 1991 年到 2001 年，均呈现出增加的趋势，其中 
一个增加集中在两端而不是中部。底部敏感的 G£-i 呈现出几乎200%的增加， 
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表 8.2 加权的收入和财富的不平等 测量: S 1 PP ( 1991年和2001年1 


测 量 

1991 

2001 

变化 

百分比变化 

收入 
p \0 / />50 

0. 290 

0. 286 

—0. 004 

-1.38 

/>90//>50 

2. 294 

2.494 

0. 200 

8. 72 

基尼 

0. 382 

0. 422 

0. 039 

10.21 

GE -! 

1.288 

3.859 

2. 571 

199. 61 

GEo 

0. 284 

0. 346 

0. 061 

21.48 

GE , 

0. 240 

0. 308 

0. 068 

28. 33 

GE Z 

0. 265 

0. 404 

0. 139 

52.45 

Ao . 5 

0. 121 

0. 148 

0. 027 

22.31 

• A ] 

0. 247 

0. 292 

0. 045 

18.22 

A2 

0. 720 

0.885 

0. 165 

22. 92 

资产净值 
p 7 b / p 2 S 

26. 464 

46. 224 

19. 760 

74.67 

p 90/ p 50 

6. 715 

7. 421 

0. 706 

10. 51 

下半部分 / 顶部 

5%的份额比 

0. 124 

0. 045 

—0. 080 

一 64. 52 

基尼 

0. 694 

0. 763 

0. 069 

9. 94 

ge 2 

1.455 

40. 970 

39. 515 

2715.81 


资料 来源. . SIPP 。 


顶部敏感的 G £ 2 呈现出超过50%的增加。这些测量提供了与图 8. 1中的分位 
数函数并未反映出来的收入分布底端尾部变化有关的额外信息。指数的阿特 
金森族提供了一个不平等厌恶视角。随着厌恶变得更强烈，收入不平等的水平 
和变化也变得更高和更大，但百分比变化并不如此。 

我们现在转向对资产净值的研究。因为资产净值可以取负值，因此，选择 
哪些分位数应用来构造比值就需要谨慎，以避免出现负的分位数比，其原因仅 
仅是这些比值难以解释。比值/)75//>25反映了中间50%的人口之间的资产净 
值不平等。这一人口的中间一半的财富不平等已经较大，且它在此10年期间大 
大增加。/>90/>50在7附近，时间相对稳定，这与上面洛伦兹曲线的比较共同表 
明，富裕恰好存在于第90个百分位数处。我们进一步考察底部50%对顶部5% 
的份额比。如果将整个人口的财富看做一块饼（资产净值的正数值和负数值之 
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和），下半部分的人口比顶部5%的人口拥有一块小得多的饼，因为1991年时， 
它们的比值只为 0. 124, 2001年时，进一步下降至 a 045。尽管资产净值的基尼 
系数比收入的基尼系数大得多，但收人基尼系数和资产净值基尼系数的增长率 
相似，约为10%。总的来说，表 8. 2中选取的不平等测量表明，收入和财富的不 
平等在这10年间都增加了。不过，这些结果是否统计显著，需要看我们后面将 
要进行的假设检验。 

在6个社会分组变量中，组平均差异如何促成总的不平等？哪个分布变量 
的贡献更大？这些群体贡献会随时间而变化吗？我们用组分解工具来回答这 
些问题，这里集中关注基尼系数和4个不同敏感性参数的广义熵 GE 。 组间成 
分被定义为每一群体中的成员具有与该群体的平均财富相等的财富取值，而非 
群体成员具有不同的财富取值情况下的群体间不平等。我们注意到，除了反映 
组平均差异之外，组分解将被分解成这一计算，也就是说，相对群体规模会有影 
响。我们用 DASP 程序得到了表 8. 3中所示的结果。以种族或民族分组为例， 
从顶部的收人情况看，组间部分对基尼系数贡献了 13. 42%，对0£- 1 贡献得非 
常少，而对 Gf ：^、 GG 和 GE 2 贡献了约4%。种族或民族的这些贡献在这10 
年间极其稳定。应当记住的是，尽管广义熵族是加和可分解的，但基尼系数不 
是。我们看到,种族或民族对基尼系数的贡献较大，且它在这10年间略有增加。 
通过考察不同的分组变量，我们会看到两种模式。第一，6个分组变量中，教育 
群体和家庭户类型的组间成分是总收人不平等的最大促成因素。第二，这些组 
间成分的贡献在此10年间变化适中。 

但是，资产净值上出现了不同模式(表 8. 3的底部）。反映财富积累上生命 
周期差异的年龄分组与教育群体和家庭户类型一起，对总财富不平等有更大的 
贡献。根据加和可分解性，各组间成分对 G £ 2 的递减贡献意味着，低端尾部的 
组间变异在2001年比在1991年起着更大的作用。相反，根据非加和可分解性， 
各组间成分(有一个例外)对基尼系数的递增贡献表明，组平均差异对2001年时 
的中间部分比1991年时起着更重要的作用。 

家庭户会有各种各样的财富投资组合。我们关注3个类别——房产净值 
(房产价值减去抵押）、金融资产净值(个人退休金账户、银行账户、股票、公募基 
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金等减去抵押品）以及房地产净值、贷借净值和医疗债务等其他资产净值。我 
们用 DASP 程序对基尼系数进行了按来源的分解。表 8. 4 显示，金融资产净值 
对总的基尼系数做了最大的百分比贡献，这一贡献从 1991 年到 2001 年有所下 
降。“其他”类在 1991 年作出了一个负的百分比贡献，意味着该类中的负债超过 
了资产。这在2001年时是正的。 


表 8.3 组间成分对收入和财富不平等的加权百分比 贡献: SIPP ( 1991年和2001年) 



种族 

年龄 

教育 

家庭户类型 

区域 

农村 

收人 (1991 年） 







基尼 

13. 42 

3.41 

44. 27 

45. 16 

12. 18 

12.39 

GE-i 

0. 85 

0. 03 

3. 73 

5.01 

0.27 

0. 48 

GE 0 

3.68 

0. 12 

17. 08 

20.77 

1.29 

2. 19 

GE, 

3. 95 

0. 15 

19. 90 

21. 99 

1. 52 

2. 48 

ge 2 

3. 25 

0. 13 

18. 19 

18.26 

1. 37 

2. 14 

收人 (2001 年） 







基尼 

14.85 

3. 63 

44. 24 

46.62 

9.81 

10. 91 

GE-! 

0. 32 

0. 01 

1. 66 

2.21 

0. 08 

0. 18 

GE 0 

3.31 

0. 14 

17. 50 

21. 18 

0. 84 

1. 93 

GE, 

3. 48 

0. 15 

19.38 

21. 38 

0. 94 

2.05 

ge 2 

2.51 

0. 12 

15. 15 

15.26 

0. 71 

1.48 

资产净值 (1991 年） 







基尼 

16. 22 

33.41 

27.07 

31. 46 

14. 63 

5. 35 

ge 2 

3.07 

7. 45 

4. 76 

5. 59 

1.26 

0. 21 

资产净值 (2001 年） 







基尼 

21.21 

30. 64 

39. 61 

33. 05 

15. 43 

9.46 

ge 2 

0. 17 

0. 27 

0. 44 

0. 24 

0. 06 

0. 04 


资料 来源: S 1 PP 。 


表 8.4 来源类别对资产净值基尼系数的加权百分比 贡献: S 1 PP ( 1991年和2001 年) 


类 

别 

1991 

2001 

房产净值 

0. 38 

0.31 

金融资产净值 

0. 79 

0. 59 

其 

他 

-0. 18 

0. 10 


资料 来源: SIPP 。 
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检验收人和财富不平等的变动趋势 

针对整个人口和总的不平等测量的群体或来源分解，我们已经讨论过观测 
到的各种收人和财富不平等测量的模式。我们现在来考虑对这些测量的趋势 
的显著性进行检验，涉及对它们的时间变化的推断。如第6章中所讨论的，当样 
本规模较大（比如，大于 1000) 时，渐近方法适合用来确定大多数概要不平等测 
量在简单随机抽样情况下的近似抽样分布。然而，各种调查经常涉及必须在渐 
近方法中加以考虑的复杂抽样设计。对一套普遍使用的概要不平等测量，我们 
用 DASP 软件包来进行此分析。 

表 8. 5显示了对与表 8. 2中相同的一套不平等测量的时间变化进行检验的 
结果。我们给出了每一个测量的变化、/>值和95%置信区间。我们注意到，表 
中所有的收人不平等测量的变换都在 0. 01水平上显著，除了收入的 pl 0/ p 50 
比值上的变化和资产净值的 G £ 2 上的变化统计不显著之外。换言之，/>10//>50 
收入比值上估计的最小下降（一 0. 004) 可忽略不计，而资产净值的 G £ 2 上的变 
化 (39. 515) 在量上看似很大，但却是抽样变异的结果。这两个并不具有显著变 
化的测量，之后将被进一步分析。然而，我们有证据表明，收入不平等和财富不 
平等从1991年到2001年都在增加，而且，当我们集中关注中部（收人的^90/ 
户50、基尼、 GE 。 和 GE ! 以及资产净值的 ^90/ p 50 和基尼）、底端(收人的 GE-i 
和资产净值的上半部对顶部5%的份额比）以及顶端(收入的 G £ 2 和资产净值 
的上半部对顶部5%的份额比)时，这是正确的。 

在上面考察的各社会群体之间，教育群体的组间成分对这些中部和两端敏 
感的收人和财富不平等的测量具有相对较大的贡献(表 8. 3)。我们现在来进一 
步考察教育分组变量的组内成分。大量文献证实，大学教育一直是自20世纪 
80年代以来，日益增加的社会不平等的一个重要来源 （ Bernhardt ， Morris , 
Handcock Scott , 2001 ； Card &• DiNardo , 2002; Coldin &- Katz , 2007; 
Grogger Eide , 1995)。 但是，教育分布对收人和财富分布的形状的影响仍很 
难理解。由于这一问题可以归结为一个关于两个教育群体之间收入或财富上 
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的形状改变的问题，因此，我们利用相对分布方法。具体而言，我们用中位数相 
对极化 ( MRP ) 及其成分(下部和上部极化)来研究这个问题。我们的问题是，大 
学教育是否以及如何对收人和财富极化的这些测量从1991年到2001年的水平 
和变化产生影响？出于对这些测量进行推断的考虑，我们使用更为灵活的自举 
方法，因为这些估计量的渐近性质是未知的。我们在自举方法中也考虑了复杂 
调查抽样。我们用本 • 詹恩编写的 “ reldist ” 来进行这一对相对极化的分析。 

表 8. 5对收入和资产净值从1991年到2001年出现变化的检验 


测量 

变化 

户值 

LB 

UB 

收人 

/)10//>50 

—0. 004 

0. 533 

_ 0. 016 

0. 008 

/>90//>50 

0. 200 

0. 000 

0. 138 

0.263 

基尼 

0. 039 

0. 000 

0. 033 

0. 046 

GE -, 

2.571 

0. 008 

0. 706 

4. 437 

GE 0 

0. 061 

0. 000 

0. 050 

0.073 

GE , 

0. 068 

0. 000 

0. 057 

0. 079 

ge 2 

0. 139 

0. 000 

0. 116 

0. 161 

A). 5 

0.027 

0. 000 

0.022 

0.031 

Ai 

0. 045 

0. 000 

0. 036 

0. 054 

Az 

0. 165 

0. 003 

0. 058 

0.272 

资产净值 
p 7 S / p 2 b 

19. 760 

0. 000 

23. 367 

29. 562 

p 90 / / >50 

0. 706 

0. 000 

6.419 

7.011 

下半部分 / 顶部 

5%的份额比 

-0. 080 

0. 000 

-0. 106 

一 0. 053 

基尼 

0. 069 

0. 000 

0. 040 

0. 098 

GE Z 

39.515 

0. 000 

-19.803 

98. 832 


注: LB 和 UB 代表 95% 置信区间的下限和上限。 
资料 来源: SIPP 。 


相对分布分析分别针对每一年的收人来进行。由于相对分布方法可被应用 
于任何不要求正数取值的分布，所以，我们能够对资产净值做同样的分析。我们 
将大学教育作为比较组，无大学教育作为参照组。既然我们的问题是关于形状改 
变的，所以，“ reldist ” 首先以大学教育组来调整无大学教育组的中位数，从而消除 
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中位数差异的影响。然后， “ reldist ” 进行等级转换以得到调整中位数的相对数据， 
根据这些数据来计算 MRP 及其成分一底部相对极化 ( LRP ) 和顶部相对极化 
( URP ) ，可以得到 MRP 、 LRP 和 URP 的自举法标准误,以对 SIPP 调查设计中的 
聚群和分层加以考虑。本分析使用200次自举重复。为了构建表 8. 6,我们采用 
1991年和2001年加权 MRP 、 LRP 和 URP 以及自举法标准误，这些由 “ reldist ” 来 
得到。第一步，我们对每一年的 MRP 、 LRP 和 URP 建构一个95%置信 区间: 
95 %CI =加权估计值 + 1.96 X BSE 。 第二步，我们将2001年的加权 MRP、LRP 
和 URP 减去1991年对应的值，得到这两年之间的变化。第三步，我们用 
yBSE ^ i + BSElooj 来计算该变化的标准误(假定这两年的极化测量无关)。 

顶部呈现了针对收入的结果。1991年， MRP 为 0 . 2583,这意味着与无大学 
教育组相比，大学教育组中的 25. 83%相对更加极化。 LRP 比 URP 更大表明， 
与无大学教育组相比，大学教育组中的下半部分比上半部分更加分散。具体而 
言，大学教育组中的 16. 22% (32. 43%/2)已从中位数处进一步朝左边移动，而 
其中9.62%(19.23%/2)已从中位数处进一步朝右边移动。应当指出，我们现 
在关注的是形状差异，且中位数差异已被消除了。正如自举法标准误和95%置 
信区间所显示的，所有3个极化测量都显著地区别于0。 

这两个教育组之间的相对收入极化测量从1991年到2001年都大大增加。 
具体而言 ， LRP 增加了 27% ( 0. 0882/0. 3243 = 0. 27 )， MPR 增加了 23%，而 
URP 增加了 16%，这表明，无大学教育组的下半部分在收人分布上有一个更严 
重的缩减。3个变化都在 0. 01水平上统计显著。 

表 8. 6的底部呈现了针对收人的结果。毫不奇怪的是，根据教育得到的财 
富的中位数相对极化要比收入的情况更为严重。与无大学教育组相比，大学教 
育组中约 47. 10%朝分布的两个尾部移动。无大学教育组分布下半部分的这一 
集中为此差异的主要来源。尽管2001年时财富的相对极化在加深，正如收人相 
对极化的情况一样，但是，相对于 MRP 上17%的增量和 LRP 上14%的增量，其 
上半部分的变化率更大(25%的增量）。因此，富裕的大学教育组在此10年期间 
变得日益富裕。这些变化在 0.01 水平上统计显著。 
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表 8. 6对以大学教育划分的加权相对极化自1991年到2001年变化的检验 


测 量 

估计值 

BSE 

LB 

UB 

收人 （1991 年） 





MRP 

0. 2583 

0. 0084 

0. 2419 

0. 2748 

LRP 

0. 3243 

0. 0134 

0. 2980 

0. 3506 

URP 

0. 1923 

0.0101 

0. 1726 

0.2121 

收人 (2001 年） 





MRP 

0. 3175 

0. 0070 

0. 3038 

0. 3311 

LRP 

0.4125 

0. 0190 

0. 3912 

0. 4338 

URP 

0. 2224 

0. 0084 

0. 2059 

0. 2390 

变化 





MRP 

0. 0592** 

0. 0109 



LRP 

0. 0882** 

0. 0172 



URP 

0. 0301** 

0.0131 



资产净值 (1991 年） 





MRP 

0. 4710 

0.0111 

0. 4494 

0. 4927 

LRP 

0. 6592 

0. 0205 

0. 6190 

0. 6994 

URP 

0. 2829 

0. 0094 

0. 2644 

0. 3013 

资产净值 (2001 年） 





MRP 

0. 5529 

0. 0056 

0. 5419 

0. 5640 

LRP 

0. 7516 

0. 0098 

0. 7324 

0. 7708 

URP 

0. 3543 

0. 0070 

0. 3406 

0. 3679 

变化 





MRP 

0. 0819 

0. 0124 



LRP 

0. 0924 

0. 0227 



URP 

0. 0714 

0.0117 




注: BSE : 自举法标 准误; LRP : 下部相对 极化; MRP : 中位数相对 极化; URP : 上部相对极化。 LB 和 UB 
代表95%置信区间的下限和 上限。 

** 表示 /> < 0. 01。 

资料 来源: SIPP 。 


分解收人和财富不平等的变动趋势 


上一节的结果证实，收人和财富的许多不平等测量在此10年期间显著不 
同。收入不平等由分类机制（社会结构或者运气）和人口特征的构成决定。在 
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分类机制不变的情况下，种族或民族、年龄、教育、家庭户类型和其他特征的变 
化会改变收人和财富的不平等。同样，在这些特征构成不变的情况下，分类机 
制上的变化也会改变不平等的图景。因此，下一个必然的问题就是，如何量化 
这两个成分的相对贡献？ 

使用一个预测变量来考察某一时间的不平等是有问题的，因为存在一个以 
上的总体协变量，同时，这些协变量是相互相关的。比如，黑人更可能是低教育 
的、生活在单身母亲家庭户中或者西部。因此，需要一个多元回归分析框架。 
当我们要对整个分布进行考察和趋势分解时，分位数回归比线性回归更具优 
势。我们将马沙杜和玛塔的方法应用于收人和资产净值的不平等趋势分解。 
我们的 QRM 设定纳人了 16个协变量 :代表 种族或民族的3个虚拟变量、年龄 
和年龄的平方、受教育年数、代表6类家庭户的5个虚拟变量、家庭户规模、代表 
区域的3个虚拟变量以及城市地区。 

以收人为例，我们执行了以下 程序： 

程序 A : 分别对1991年和2001年模拟基于分位数回归的收人边缘分布。 

(1) 从均勻分布1/(0, 1) 中随机地选取一个 U 。 

(2) 用1991年的数据估计第 L 7 个分位数回归模型。[ 18 ] 

(3) 从1991年的数据中选取一个规模为40的自举法样本，并得到基于分 
位数回归模型估计值的预测收人。 

(4) 将步骤 (1) 到步骤 (3) 重复500次。 

(5) 将预测的收人值放在一起，得到一个基于分位数回归模型（针对500 
个不同分位数)的1991年收入边缘分布的随机样本，样本规模为500 X 40 = 
20000。 

(6) 重复步骤 (1) 到步骤(5)，用2001年的数据减去1991年的数据。 

程序 B : 用2001年的分位数回归模型系数和1991年的协变量数据模拟反 
事实收入边缘分布(反事实顺序1)。用1991年的分位数回归模型系数和2001 
年的协变量数据模拟相反顺序的反事实收人边缘分布(反事实顺序 2) 。 

根据1991年的边缘分布和2001年的边缘分布，我们得到某一不平等测量 
的整体变化(表 8. 7第三行)。对于每一个反事实顺序，我们用第7章中介绍过 



评估不平等 


的方法(见方程 7. 2) 来得到一个不平等测量的构成成分和条件成分。对每一个 
反事实顺序的记录求平均值，我们得到构成成分和条件成分的最终结果(表 8. 7 
的最后两行）。 

在表 8. 7中,基于边缘分布(根据分位数回归模型得到）的/>90/^50在这10 
年期间从 2. 115增加到 2. 287,这表明富人越来越富裕。两个成分的估计值在 
两个反事实排序之间不同。分解结果显示，协变量构成上的变化对第90个百分 
位数的收人相比于中位数收人并无显著影响。因此，在给定纳人模型中协变量 
的情况下，条件分布解释了较低/-90//>50比值的 110. 4%。换言之，分类机制完 
全解释了以 P 10/ P 50 比值所测量的日益增加的不平等。 

回到基尼、泰尔和 G £ 2 , 根据它们的平均值，我们看到，条件分布在给定协 
变量的情况下，促使这10年间的收人不平等增加。估计值的变异较高， 
因此，这些结果在统计上都不显著(底部敏感测量的这一更大变异在第6章中讨 
论过，见蒙特卡洛结果）。 G &、 焱 1/2 和 A 】 呈现出更加引人注目的模式。协变 
量构成上的变化显著地减少了这些指数所测量的收入不平等，而条件分布上的 
变化则增加了不平等，其中， G £ Q 导致的增量为 162%， A 1/2 导致的增量为 
138. 8%, Ai 导致的增量为161.5%。 A 2 的估计值很精确，因此，我们没有对这 
些显著的结果加以考察。总的来看，表 8. 7表明，协变量构成对日益增加的不平 
等并无影响，同时，对于9个指数中的3个，它们还可以减少不平等。相比而言， 
在给定协变量的情况下.由社会结构赋予的分类机制的条件分布考察的9个指 
数中的7个，都对日益增加的不平等有影响。 

资产净值的分位数回归模型纳人了与收人分位数回归模型中相同的16个 
协变量。资产净值的分布是高度非正态的，因为较大比例的家庭户具有负值或 
零值。分位数回归模型具有拟合资产净值这种非正态分布数据的灵活性。资 
产净值的分位数回归模型的拟合优度比针对收人而得到的情况更低。拟合优 
度随着分位数而增加，在 0. 01到 0. 21的范围内变化。我们用程序 A 和程序 B 
(如前所述)来分析以 P 90/ P 50 比值和基尼系数所测量的资产净值变动趋势。 
表 8. 8反映出，此10年间的整体财富不平等在增加。两种反事实的排序都强调 
给定协变量情况下的条件分布比协变量构成更重要。协变量构成上的变化 
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降低了 p 90//>50 比值，对基尼系数也没有显著影响。相比而言，财富分类机制 
上的变化使 ^90/ p 50 比值增加了 152%、基尼系数增加了 107. 3%。这些发现 
与收入不平等中的那些发现相吻合。因此，对于收人和财富，日益增加的不平 
等的主要推动力为资源在不同社会群体间越来越不平等的分配^ 


表 8. 8基于模型将财富变动趋势分解为构成和条件 成分: SIPP ( 1991年和2001 年) 


分 解 

p 90/ />50 

G 

1991年实 际的 : P (: y , ; C 】） 

5. 389 

0. 678 

2001 年实际的: F ( y 2 ; Cz ) 

6. 801 

0. 867 

整体变化 

1.4『 

0. 189“ 

反事实顺序 l ： F ( y 2； C ,) 

构成成分 

— 0. 586 

—0. 007 

条件成分 

1. 998 

0. 196" 

反事实顺序 2: F (: y , ; C 2 ) 

构成成分 

-0. 884 # 

—0. 021* 

条件成分 

2. 296** 

0. 210“ 

反事实顺序1和2的平均 

构成成分 

-0. 735* 

—0. 014 

条件成分 

2. 147** 

0. 203” 

百分比贡献 

构成成分 

-52.0* 

-7.3 

条件成分 

152.0“ 

107.3** 


注:分 位数回归模型纳人了 16个协变量(具体见正文）。 
* 表示 p < 0 . 05,** 表示 p < 0 . 01. 

资料 来源: S 1 PP 。 


小结 


本章使用取自1991年和2001年美国家庭户全国代表性样本的数据，提供 
了一个对收人和财富不平等的说明性考察。收入和财富是家庭户资源的两个 
支柱，同时它们又相互促进。我们对收人和财富不平等的考察揭示岀，收人和 
财富的大多数不平等测量从1991年到2001年都存在一个显著的大幅度增加。 
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分析进一步揭示，在根据收入和财富的分布，将家庭户归类到不同位置这点上， 
教育群体和家庭户类型是比种族或民族更加重要的社会分组方式。具体而言， 
相比于无大学教育组，大学教育组2001年的收人和财富不平等比1991年时的 
更加极化。相比而言,无大学教育组在下半部的集中反映出低技能者收人和财 
富的停滞不前。最后，根据对趋势的分解，本例发现，增加收人和财富不平等的 
主要推动力为更不平等的分配体系，而不是社会群体构成上的变化。 

本例运用了本书所介绍的大多数方法论工具来回答与整体人口和按社会 
群体区分的收人和财富不平等有关的核心问题。这些工具作为一个整体，提供 
了对不平等进行系统考察的方法。我们现在知道，如何直观地展示不平等测 
量，如何选取有限的不平等测量来强调分布的不同部分或者与反应变量有关的 
不平等厌恶水平，如何检验与变化趋势有关的假设，如何根据各组群和来源分 
解总不平等,以及如何将趋势分解成构成和分布成分。不平等测量的4个原则 
和洛伦兹占优提供了对跨时间模式或组间模式进行比较的指导原则。分位数 
函数和洛伦兹曲线之间的关系有助于将概要不平等测量、基于分位数的测量和 
基于相对分布的测量的位置改变与形状改变区分开来。分位数回归模型可以 
对趋势变化进行基于模型的分解，并确定什么是导致收入和财富不平等增加的 
动力。 

我们的例子也说明，在对包含许多负数和零值的反应变量进行处理时，我 
们在适用的工具类别上会面临更多限制。正如我们在资产净值的例子中所展 
示的，对这个变量需要更加谨慎。我们以同时具有理论和方法论意义的说明性 
举例来结束本章和全书。我们希望本书在获取更多与社会不平等的模式、来源 
和后果有关的知识并从事这些研究方面对读者会有帮助。 



附录 1 位置改变导致洛伦兹曲线变化 

本附录给出位置改变导致洛伦兹曲线变化的证明。一个误解就是，概要不 
平等测量只描述分布的离散度或形状，因此，当我们对两个分布进行比较时，只 
有离散度或形状上的变化才要紧。因为洛伦兹曲线是统一诸多不平等测量的 
一个共同基础，所以，我们认为这一证明对于增进我们对不平等测量的理解是 
必要的。 

只要存在一定的不平等，最低为 S 的工资所得者的平均收人就小于所有工 
资所得者的平均收人。因此， 


i= 1 i = l 

这意味着①， 


^ <^ 2^(0 
1=1 i=i 

最后，两边同时加上 Eyco 并进行因式分解 得到: 

1=1 i=l 


(an + ^Jya) ) 2^(0 < (似 + 2 W ) ) 2 則 

i = l i=l i = l i = l 

因此有： 


①注意，这里假定 a >0。——译者注 
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L * ( s / n ) = 


2-=1^ + 夕⑴ ） 2 : =1 外) 


= L(s/w ) ① 


附录 2 


表 A 1 选取的概要不平等测量 


名 称 




公 

式 

与概率分布相联系的测量 
极差 

R = 

' ymax _ 

~ ym\n 



方差 

V = 

士 

71 « = 1 

- >> 2 


变异系数 

c = 

yv 

y 




对数方差 

V = 


(log 

#))2 = 

j ^]( log3 ；, - logJO 2 

对数的方差 

v = 

+§( log (?)) 2= 1 

L ^ ClogC ^ O - logCjy )) 2 

1 = 1 

基于分位数函数和洛伦兹曲线的测量 

分位数比 

份额测量 

底部分位数区 

中部分位数区 

顶部分位数区 

QVCy '， 对于/ 

Up ) 

L ( pu ) — L ( p L ) 

1 — L ( 1 — p ) 


基尼系数 

G = 


1 M 

n 

-yj 1 


基于社会福利函数的测量 

n (n 一 " 

1)5^ 

■ _L 

阿特金森指数 

人 ： 

=1- 

-丄， 
■ n 1 

n i__ ■ 

§( f ) . 

基于信息理论的测量 






泰尔指数 

T = 

:诘 f 

['-( f )] 


广义熵 

GEe 

1 

= ¥~ - 

~e_ 

ls ( f ) 

9 - 

-1 


①此方程略有改动。译者注 
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附录3 


表 A 2 不平等测量的性质 


不平等测量 

转移原则 

尺度 

无关性 

人口规模 
无关原则 

加和可 

分解性 

(0, 1) 取 
值范围 

与概率分布有关的 
驗 R 

不适用 

否 

是 

否 

否 

方差V 

强 

否 

是 

是 

否 

变异系数 r 

弱 

是 

是 

是 

否 

对数方差 U 

不适用 

是 

是 

否 

否 

对数的方差 n 

不适用 

是 

是 

否 

否 

基于分位数函数和洛伦兹曲线的 
分位数比 

不适用 

否 

是 

否 

否 

分位数区间份额 

不适用 

是 

是 

否 

否 

基尼系数 G 

弱 

是 

是 

否 

是 

由社会福利函数推导的 
阿特金森指数 A 

弱 

是 

是 

否 

是 

由信息理论发展出的 
广义熵 ge 9 

强 

是 

是 

是 

否 


附录4 


表 A 3 State 中用于研究不平等测量的程序和软件包 


-glcurve- 

凡 • 克尔曼和詹金斯 (2001) 

-inequal7- 

凡.克尔曼 (2001) 

-ineqdeco- , -ineqdecO— 

詹金斯 （1999) 

-reldist- 

詹恩 (2008) 

DASP 里的各种命令 

杜克罗斯和阿拉尔 (2006) 
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注释 _ 

[1] 一些人将峰态减去 3, 从而使得取值都分布在 0 的周围。 

[2] 如果 y 是随机变量，是常数，那么，随机变量 y = a + c y 被定义为 y 的线性转换。 

[3] 这里，: y , 被假定为非负的。 

[4] 为了明白这点，我们有:士忘 (1. 5>-, - 1. 5 y ) 2 = 1. 52 .+|^,'-50 2 = 1. 5 2 V 。 

[5] 以50%增量为例，我 们有 ： f 



[ 6 ] 对于： > 0 ,几何均值被定义为 ( n ^-)'- 这等价于几何均值总是小于或等于算术 
均值。收人的几何均值的对数就是 W 数收人的均值。 

[ 7 ] 利用罗必达法则，我们看到， linv-i (> 1_E — 1)/(1— e ) = ^-( y _c 一 1) / 去 (l — e ) = log ( y )。 

[ 8 ] 当/ > = 0 时, p 的对数未被定义，但是，我们可以将时 plog ( p ) 的极限定义为0,且函数 /.log 
(/>) 是连续的。 

[ 9 ] 如果连接一对点的任意线段都位于那两点之间函数的线性内插值点线段上方，那么，若干变量的 
函数/(工1， …，： C n ) 被认为是凹性的。形式上，对于所有选取的( XI ，…，工”）、(3；1，•••，及取 
值范围在0到1之间的 X ，我们 都有： 

/( 又 (工 1 ，…， X ”) + (1 — A)(^i » •••» y ”)) ^ A /( xi , •••, x n ) -h (1 — A)/(^i » y n ) 

[10] 方程 3. 8 a 和方程 3. 8 b 之间的中间步骤 如下： 

丁 =— 2 ) =— log (~) + S 5 «) 

i=i 71 \ n / I=1 \ n / , = 1 

=— lo g ( + ) ■*" ^ Si \ og (. Si ) = — log(-^-)j 

[11] 勒曼和伊达沙基以要素来分解基尼系数 (Lerman &• Yitzhaki ， 1984)。分解方程为乘积形式。根 
据分解，他们得到基尼系数的一个要素的边际效应1%的增量。洛佩兹-费德曼在 Stata 程序 “ de - 
scogini ” 中实现了勒曼和伊达沙基方法 （ Lopez - Feldman ， 2006)。使用这一程序，我们发现，1991 
年时资产公平1%的增量将使得基尼系数减少 5. 7%，2001年时，这一效应将更强 (7. 4%)。 

[12] 对于 m 个分布，成对比较的数量就是 m(m —1)/2。当我们对两年中的收入分布进行比较时，尽管 
成对比较的数量只为1，但当我们对10年的收人分布进行比较时，这个数值增加到45。 

[13] 一般性的保测变换可被视为是通过将单位区间 [0, 1] 分割成任意段然后将这些段打乱所界定的 
一种变换。 

[14] 这一蒙特卡洛实验的全部结果可在本书的网站上找到。 

[15] 对于约等于1的分析性权重， Stata 以加总数据中的观测数内在地将它们重新尺度化，所得的群 
体比例被改变成与其他年份的相似。 

[16] 我们设定了一个不含交互项的加和模型。此模型过于简单，因为它假定，没有协变量会通过任何 
其他协变量影响: V 。 
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[17] 仅仅出于示例说明的考虑，我们在这里使用了一个简单设定。更为真实的例子可在第8章中 
找到。 

[18] 在《分位数回归》一书中 （Hao Naiman , 2007) ，我们讨论了拟合的第 p 个分位数回归模型的拟 

合优度测量，记为 叫)。 这里，我们注意到，对于拟合的分位数回归模型，/>10处的尺为 0. 1543, 
P 90 处的 i ? 为0.2573。这表明，相对于低端尾部，模型解释了顶端尾部的更多变异。所有估计系 
数都具有预期的方向且大多数协变都是统计显著的。 
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译名对照表 


additive decomposition 
asymptotic approach 
Asymptotic Standard Errors(ASE) 

Atkinson family of inequality indices 
bandwidth, of an estimator 
bootstrap approach 
Bootstrap Standard Error (BSE) 

GDF( Cumulative Distribution Functions) 
central moments 
coefficient of variation 
counterfactual decomposition method 
DASPCDistributive Analysis Stata Program) 
entropy .. 


加和分解 
渐近方法 
渐近标准误 
阿特金森族不平等指数 
估计量的带宽 
自举方法 
自举法标准误 
累积分布函数 
中心矩 
变异系数 
反事实分解方法 
分布分析的 Stata 程序 
熵 


Gaussian distribution 
generalized entropy 
generalized Lorenz curves 
geometric mean 
Gini coefficient 
Gini index 

grade transformation 
inequality aversion parameter 
information entropy 
interactive decomposition 
Kullback-Leibler divergence 
kurtosis 
location shift 
logarithmic variance 
logarithm of variance 
Lorenz consistency 
Lorenz curves 
Lorenz dominance 
Lorenz intersection 

LRP( Ix)wer-portion Relative Polarization) 

measure-preserving function 

median 


高斯分布 
想熵 

广义洛伦兹曲线 
几何均值 ' 

基尼系数 
基尼指数 
等级转换 
不平等厌恶参数 
信息熵 
交互分解 

库尔贝克-莱伯勒距离 
峰态 

位置改变 
对数的方差 
方差对数 
洛伦兹一致 
洛伦兹曲线 
洛伦兹占优 
洛伦兹交叉 
底部相对极化 
保测函数 
中位数 
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median-adjusted data 

调整中位数的数据 

moments 

距 

Monte Carlo experiments 

蒙特卡洛实验 

MRP( Median Relative Polarization) 

中位数相对极化 

Neyman-Pearson Lemm 

尼曼-皮尔邀定趣 

OaxacarBlinder regression decomposition 

奥扎卡一布林德回归分解 

PDF( Probability Density Functions) 

概率密度函数 

Pigou-Dalton transfer principle 

庀古一道尔顿转移原则 

platykurtic 

扁平峰 

quantile functions 

分位数函数 

Quantile Regression(QR) 

分位数回归 

range 

极差 

Relative Cumulative Distribution Functions(CDF) 

相对累计分布函数 

relative data 

相对数据 

relative density 

相对密度 

relative distribution 

相对分布 

relative entropy 

相对熵 

relative polarization 

相对极化 

Relative Probability Distribution Function(PDF) 

相对概率分布函数 

relative proportions 

相对比例 

relative rank 

相对秩 

replacement 

回置 

scale inviance 

尺度无雑 

scale shift 

:尺 度改攀 

sequential decomposition 

顺序分解 

Shannon entropy 

香农熵 

shape shift 

形秋改变 

skewness 

偏态 

social utility function 

社金效 類函数 

strong principle of transfer 

强綱原则 

summary inequality measures 

概要不 ■ 等_量 

Theil inequality index 

泰尔不平等指数 

URP( Upper-portion Relative Polarization) 

顶部相对极化 

weak principle of transfers 

弱转移原则 
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